spark:local模式环境-搭建和使用
1/下载
到官方网站去下载apache spark 官网:https://spark.apache.org/downloads.html 或者是清华大学镜像库:https://mirrors.tuna.tsinghua.edu.cn/复制代码
2/从本地上传到linux服务器
通过rz命令 rz spark-3.1.1-bin-hadoop3.2.tgz 复制代码
3/解压
tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz 会生成一个spark-3.1.1-bin-hadoop3.2的目录 复制代码
4/设置环境变量
在.bashrc文件中,写(根据自己的实际情况,路径之类的,:冒号是连接符号) export SPARK_HOME=/home/hadoop/spark-3.1.1-bin-hadoop3.2 export PATH=$PATH:$SPARK_HOME/bin export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4- src.zip:$PYTHONPATH export PATH=$SPARK_HOME/python:$PATH 复制代码
5/使得环境变量立即生效
source .bashrc 复制代码
6/启动pyspark
到安装目录下,spark-3.1.1-bin-hadoop3.2/bin/下 ./pyspark 这样就启动了 复制代码
################## ################# ##################
一、安装Spark
1/下载
官方下载地址:spark.apache.org/downloads.h… ,选择Spark版本和对应的Hadoop版本后再下载:复制代码
2/解压安装包:
# tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 复制代码
3/配置环境变量
vim /etc/profile export SPARK_HOME=/home/hadoop/spark-2.2.3-bin-hadoop2.6 export PATH=${SPARK_HOME}/bin:$PATH source /etc/profile 复制代码
二/启动spark
Local模式是最简单的一种运行方式,它采用单节点多线程方式运行,不用部署,开箱即用,适合日常测试开发。 # 启动spark-shell spark-shell --master local[2] local:只启动一个工作线程; local[k]:启动k个工作线程; local[*]:启动跟cpu数目相同的工作线程数。 这是成功启动spark之后的界面,我们可以看到spark的版本。 scala是一门编程语言,spark默认的编程语言,当然我们要在python中启动spark也是可以的.复制代码
作者:HZ在掘金
链接:https://juejin.cn/post/7031069058443247647