11-16 07:47 阅读 106

spark：local模式环境-搭建和使用

1/下载

到官方网站去下载apache spark
官网：https://spark.apache.org/downloads.html   

或者是清华大学镜像库：https://mirrors.tuna.tsinghua.edu.cn/复制代码

2/从本地上传到linux服务器

通过rz命令
rz spark-3.1.1-bin-hadoop3.2.tgz 
  
  
复制代码

3/解压

tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz
会生成一个spark-3.1.1-bin-hadoop3.2的目录  
  
复制代码

4/设置环境变量

在.bashrc文件中，写（根据自己的实际情况，路径之类的,:冒号是连接符号）

export SPARK_HOME=/home/hadoop/spark-3.1.1-bin-hadoop3.2

export PATH=$PATH:$SPARK_HOME/bin
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-    src.zip:$PYTHONPATH
export PATH=$SPARK_HOME/python:$PATH  
  
复制代码

5/使得环境变量立即生效

source .bashrc 
 
 
复制代码

6/启动pyspark

到安装目录下，spark-3.1.1-bin-hadoop3.2/bin/下
./pyspark 
这样就启动了 
复制代码

################## ################# ##################

一、安装Spark

1/下载

官方下载地址：spark.apache.org/downloads.h… ，选择Spark版本和对应的Hadoop版本后再下载：复制代码

2/解压安装包：

 # tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz          
复制代码

3/配置环境变量

  vim /etc/profile
  export SPARK_HOME=/home/hadoop/spark-2.2.3-bin-hadoop2.6
  export  PATH=${SPARK_HOME}/bin:$PATH
  source /etc/profile     
复制代码

二/启动spark

 Local模式是最简单的一种运行方式，它采用单节点多线程方式运行，不用部署，开箱即用，适合日常测试开发。
# 启动spark-shell
    spark-shell --master local[2]

    local：只启动一个工作线程；
    local[k]：启动k个工作线程；
    local[*]：启动跟cpu数目相同的工作线程数。
    
这是成功启动spark之后的界面，我们可以看到spark的版本。
scala是一门编程语言,spark默认的编程语言,当然我们要在python中启动spark也是可以的.复制代码

作者：HZ在掘金
链接：https://juejin.cn/post/7031069058443247647