PyCharm搭建Spark开发环境的实现步骤

作者:白蛇仙人 时间:2022-05-21 04:21:17 

1.安装好JDK

下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量:

  • 新建系统变量JAVA_HOME,值为Java安装路径

  • 新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点)

  • 配置系统变量PATH,添加 %JAVA_HOME%bin;%JAVA_HOME%jrebin

在CMD中输入:java或者java -version,不显示不是内部命令等,说明安装成功。

2.安装Hadoop,并配置环境变量

下载hadoop:https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz

PyCharm搭建Spark开发环境的实现步骤

  • 解压hadoop-2.7.7.tar.gz特定路径,如:D:\adasoftware\hadoop

  • 添加系统变量HADOOP_HOME:D:\adasoftware\hadoop

  • 在系统变量PATH中添加:D:\adasoftware\hadoop\bin

  • 安装组件winutils:将winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin

3.Spark环境变量配置

spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。

  • 下载对应hadoop版本的spark:http://spark.apache.org/downloads.html

  • 解压文件到:D:\adasoftware\spark-2.4.3-bin-hadoop2.7

  • 添加PATH值:D:\adasoftware\spark-2.4.3-bin-hadoop2.7\bin;

  • 新建系统变量SPARK_HOME:D:\adasoftware\spark-2.4.3-bin-hadoop2.7;

4.下载安装anaconda

anaconda集成了python解释器和大多数python库,安装anaconda 后不用再安装python和pandas numpy等这些组件了。下载地址。最后将python加到path环境变量中。

5.在CMD中运行pyspark,出现类似下图说明安装配置正常:

PyCharm搭建Spark开发环境的实现步骤

出现这种warning是因为JDK版本为12,太高了,但是不影响运行。没有影响。

6.在pycharm中配置spark

打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”–>点击+创建新的python Configurations

PyCharm搭建Spark开发环境的实现步骤

选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。

  • SPARK_HOME:Spark安装目录

  • PYTHONPATH:Spark安装目录下的Python目录

PyCharm搭建Spark开发环境的实现步骤

选择 File->setting->你的project->project structure

右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下)

保存即可

7.测试是否配置成功,程序代码如下,创建一个python程序放进去就可以:


import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME'] = "D:\adasoftware\spark"

# Append pyspark to Python Path
sys.path.append("D:\adasoftware\spark\python")

try:
from pyspark import SparkContext
from pyspark import SparkConf

print("Successfully imported Spark Modules")
except ImportError as e:
print("Can not import Spark Modules", e)
sys.exit(1)

若程序正常输出: "Successfully imported Spark Modules"就说明环境已经可以正常执行。

PyCharm搭建Spark开发环境的实现步骤

来源:https://blog.csdn.net/mudooo/article/details/94830879

标签:PyCharm,搭建,Spark
0
投稿

猜你喜欢

  • python 中文乱码问题深入分析

    2023-06-12 19:04:37
  • python安装scipy的步骤解析

    2021-09-09 03:20:36
  • 客户端和服务端的编码“陷阱”

    2007-12-21 19:19:00
  • MySQL获得当前日期时间函数示例详解

    2024-01-27 07:54:48
  • python openCV自制绘画板

    2022-05-17 23:45:51
  • JS实现图片手风琴效果

    2023-08-23 19:28:27
  • 使用Pytorch搭建模型的步骤

    2022-03-05 21:28:38
  • 代码分析Python地图坐标转换

    2022-01-15 19:50:48
  • Python实现RGB等图片的图像插值算法

    2023-03-30 17:11:55
  • 详解Python odoo中嵌入html简单的分页功能

    2021-05-21 12:24:06
  • Pandas索引排序 df.sort_index()的实现

    2023-02-13 23:49:48
  • python中的Pytorch建模流程汇总

    2022-04-26 19:02:14
  • Mini,又个 Javascript 选择器

    2009-10-06 14:48:00
  • Python编程之string相关操作实例详解

    2023-01-05 04:17:47
  • Golang设计模式工厂模式实战写法示例详解

    2024-05-25 15:11:42
  • Pycharm更换python解释器的方法

    2023-03-23 10:02:58
  • python原始套接字编程示例分享

    2021-10-09 19:00:07
  • vue项目中将element-ui table表格写成组件的实现代码

    2024-05-28 15:55:31
  • Django ORM F对象和Q对象查询

    2023-10-23 15:33:04
  • python安装cxOracle避坑总结不要直接pip install

    2023-12-07 09:13:11
  • asp之家 网络编程 m.aspxhome.com