阅读 139

spark平台基本组成(spark安装详细教程)

提起大数据技术,我们常常会想到大数据技术所需要的生态平台Hadoop和Spark,其中的Spark的概念及学习路线是如何的呢?一起来跟小编看看吧~

一、Spark概念

1、Spark描述

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,因为Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。

Spark和Scala能够紧密集成,其中的Scalable可以像操作本地集合对象一样轻松地操作分布式数据集。

2、Spark特点

① 高级API将焦点从集群本身剥离出来,spark应用程序开发人员可以将焦点放在应用程序需要执行的计算本身。

② Spark速度快,支持交互式计算和复杂算法。

③ Spark是一个通用的引擎,它可以用来完成各种操作,包括SQL查询、文本处理、机器学习等,在Spark出现之前,我们一般需要学习各种引擎来处理这些需求。

二、Spark学习路线

Spark的学习路线可以分成编程语言、Linux、Spark三个阶段来学习。

1、编程语言

学习Spark主要学习Java和Scala这两种编程语言。

① Java学习:JavaSE基础语法、Java面向对象、JavaSE API、线程、网络编程、反射基本原理。

② Scala学习:Scala基础语言、Scala类、Scala对象、Scala特征、Scala模式匹配,其中需要重点掌握Scala的trait、apply、函数式编程、泛型、逆变与协变等。

2、Linux

Spark是基于Linux系统开发并运行的,因此需要学习Linux系统。

Linux:Linux基础知识、CentOS、Maven。

3、Spark

在Spark阶段中主要学习Spark编程模型、Spark内核、SparkSQL、SparkStreaming。

① Spark编程模型:Spark模型组成、Spark弹性分布式数据集RDD、Spark转换Transformation、Spark操作Actions。

 Spark内核:Spark专业术语定义、Spark运行原理、Spark运行基本流程、Spark运行架构特点、Spark核心原理透视、Spark运行模式、Standalone运行模式、Yarn-Client运行模式、Yarn-Cluster运行模式。

 SparkSQL:SparkSQL概念、Overview、SparkSQL程序开发数据源、SparkSQL程序开发DataFrame、SparkSQL程序开发DataSet、SparkSQL程序开发数据类型。

④ SparkStreaming:Spark Streming概念、Spark Streaming执行步骤、SparkStreaming程序开发DStream的输入源、SparkStreaming程序开发Dstream的操作、SparkStreaming程序开发程序开发–性能优化、SparkStreaming程序开发容错容灾。

Spark作为大数据技术的重要内容之一,是每一个学习大数据的同学所要必学的生态框架,通过这篇文章大家掌握到Spark的概念及学习路线了吗?

文章分类
百科问答
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐