Windows下Spark2.3+Python3.6+Pycharm的配置

2024-04-30 18:58

本文主要是介绍Windows下Spark2.3+Python3.6+Pycharm的配置,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近项目涉及在spark分布式上做数据处理,需要先配置Spark+Python的本地Windows7(win10也一样的操作)机器上开发环境,所以写下本文备忘,同时希望对其他同学也有所帮助。

准备工作

spark版本更新比较频繁,也许你看到这篇文章,版本可能已经新增。
当前最新版本的spark为2.3.1,spark的运行需要JDK8以上,所以你需要首先安装jdk8并配置好环境变量。
Python3.6及pycharm的安装配置不在本文范围,没安装的同学请自行查看其它资料安装。
上述开发环境具备后还需要pip安装pyspark包。

pip install py4j
pip install pyspark

安装spark

1) 首先去官网下载对应的安装包,文件名含bin的为免安装版。
网址:http://spark.apache.org/downloads.html
这里写图片描述
如上图所示,Hadoop2.7就是需要的hadoop版本。
注意:在第2个下拉列表中选择了哪个版本的Hadoop就要下载相应版本的。
2)下载Hadoop
地址:http://hadoop.apache.org/releases.html#Download
这里写图片描述
左侧是版本,选择2.7.7,点击对应的binary进入下载页面。
3)配置环境变量
spark和Hadoop均为免安装版,直接解压到你的安装目录即可。
分别配置环境变量如下2个图所示。
这里写图片描述
这里写图片描述
上述配置完记得将HADOOP_HOME变量添加到Path环境变量值中,如下所示:
这里写图片描述
注意:HOME目录后面是没有分号的,PATH目录后面是有分号的。
4)测试是否配置成功。
在命令行输入pyspark,提示如下即配置成功。
这里写图片描述

测试程序

from pyspark import SparkContextsc = SparkContext('local')
doc = sc.parallelize([['a','b','c'],['b','d','d']])
words = doc.flatMap(lambda d:d).distinct().collect()
word_dict = {w:i for w,i in zip(words,range(len(words)))}
word_dict_b = sc.broadcast(word_dict)def wordCountPerDoc(d):dict={}wd = word_dict_b.valuefor w in d:#if dict.has_key(wd[w]):if wd[w] in dict:dict[wd[w]] +=1else:dict[wd[w]] = 1return dict
print(doc.map(wordCountPerDoc).collect())
print("successful!")

出现如下提示表示运行成功,可以愉快地进行开发了!
这里写图片描述

注意事项

1)spark对依赖的所有工具的版本务必选对,否则可能报莫名其妙的错误。
请看网址:http://spark.apache.org/docs/latest/ 下面的说明。
这里写图片描述
2)环境变量一定要配置正确。
把握以上两点,环境搭建基本不会出错。

参考资料:

[1].http://spark.apache.org/
[2].https://blog.csdn.net/m0_37752104/article/details/80898967
[3].https://blog.csdn.net/u012882134/article/details/77893894

这篇关于Windows下Spark2.3+Python3.6+Pycharm的配置的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/949663

相关文章

SpringBoot3.4配置校验新特性的用法详解

《SpringBoot3.4配置校验新特性的用法详解》SpringBoot3.4对配置校验支持进行了全面升级,这篇文章为大家详细介绍了一下它们的具体使用,文中的示例代码讲解详细,感兴趣的小伙伴可以参考... 目录基本用法示例定义配置类配置 application.yml注入使用嵌套对象与集合元素深度校验开发

IntelliJ IDEA 中配置 Spring MVC 环境的详细步骤及问题解决

《IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决》:本文主要介绍IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决,本文分步骤结合实例给大... 目录步骤 1:创建 Maven Web 项目步骤 2:添加 Spring MVC 依赖1、保存后执行2、将新的依赖

SpringBoot基于配置实现短信服务策略的动态切换

《SpringBoot基于配置实现短信服务策略的动态切换》这篇文章主要为大家详细介绍了SpringBoot在接入多个短信服务商(如阿里云、腾讯云、华为云)后,如何根据配置或环境切换使用不同的服务商,需... 目录目标功能示例配置(application.yml)配置类绑定短信发送策略接口示例:阿里云 & 腾

Windows 上如果忘记了 MySQL 密码 重置密码的两种方法

《Windows上如果忘记了MySQL密码重置密码的两种方法》:本文主要介绍Windows上如果忘记了MySQL密码重置密码的两种方法,本文通过两种方法结合实例代码给大家介绍的非常详细,感... 目录方法 1:以跳过权限验证模式启动 mysql 并重置密码方法 2:使用 my.ini 文件的临时配置在 Wi

如何为Yarn配置国内源的详细教程

《如何为Yarn配置国内源的详细教程》在使用Yarn进行项目开发时,由于网络原因,直接使用官方源可能会导致下载速度慢或连接失败,配置国内源可以显著提高包的下载速度和稳定性,本文将详细介绍如何为Yarn... 目录一、查询当前使用的镜像源二、设置国内源1. 设置为淘宝镜像源2. 设置为其他国内源三、还原为官方

CentOS7更改默认SSH端口与配置指南

《CentOS7更改默认SSH端口与配置指南》SSH是Linux服务器远程管理的核心工具,其默认监听端口为22,由于端口22众所周知,这也使得服务器容易受到自动化扫描和暴力破解攻击,本文将系统性地介绍... 目录引言为什么要更改 SSH 默认端口?步骤详解:如何更改 Centos 7 的 SSH 默认端口1

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

SpringBoot多数据源配置完整指南

《SpringBoot多数据源配置完整指南》在复杂的企业应用中,经常需要连接多个数据库,SpringBoot提供了灵活的多数据源配置方式,以下是详细的实现方案,需要的朋友可以参考下... 目录一、基础多数据源配置1. 添加依赖2. 配置多个数据源3. 配置数据源Bean二、JPA多数据源配置1. 配置主数据

Windows Docker端口占用错误及解决方案总结

《WindowsDocker端口占用错误及解决方案总结》在Windows环境下使用Docker容器时,端口占用错误是开发和运维中常见且棘手的问题,本文将深入剖析该问题的成因,介绍如何通过查看端口分配... 目录引言Windows docker 端口占用错误及解决方案汇总端口冲突形成原因解析诊断当前端口情况解

Spring 基于XML配置 bean管理 Bean-IOC的方法

《Spring基于XML配置bean管理Bean-IOC的方法》:本文主要介绍Spring基于XML配置bean管理Bean-IOC的方法,本文给大家介绍的非常详细,对大家的学习或工作具有一... 目录一. spring学习的核心内容二. 基于 XML 配置 bean1. 通过类型来获取 bean2. 通过