spark

01-01 08:00

Spark Web界面显示Workers未启动

Spark Web界面显示Workers未启动项目场景：选择Standalone模式搭建集群，并检查代码运行结果和Web页面显示问题描述：在写好配置文件后用start-all.sh启动该spark集群，三台机器的jps进程都正常，但web页面却没有显示workers和cpu等信息原因分析：查看日志文件，master的日志并没有什么异常 workers的日志显示连接不到m

91

01-01 08:00

spark-shuffle原理&调优

spark-shuffle Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Ma...

82

01-01 08:00

SparkSQL远程访问CDH集群Hive数据表

SparkSQL远程访问CDH集群Hive数据表创建Maven项目添加如下依赖： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.0</ve

82

01-01 08:00

Spark原理图

为什么使用广播变量因为一个变量在Driver端定义，如果执行计算需要传递到executor的task线程中获取变量副本依次拉取执行此时造成由于变量数据量和任务的个数急剧增长的情况下，造成网络传输的瓶...

81

01-01 08:00

Spark订单量的实时统计项目

Spark订单量的实时统计项目需求: 1.各省份营业额的实时统计2.各省份订单量的实时统计数据: 第一步：编写Scala代码模拟KafkaProducer产生订单数据 ConstantUtils...

79

01-01 08:00

Spark从入门到放弃—Spark SQL

简介 Spark SQL是Spark中用于结构化数据处理的一个模块。与Spark RDD API不同，Spark SQL相关接口提供了关于数据结构以及计算执行过程的更多信息。Spark SQL在内部...

78

01-01 08:00

Spark原理图

为什么使用广播变量因为一个变量在Driver端定义，如果执行计算需要传递到executor的task线程中获取变量副本依次拉取执行此时造成由于变量数据量和任务的个数急剧增长的情况下，造成网络传输的瓶...

76

01-01 08:00

Spark SQL explaind中的统计信息-深入了解CBO优化

本文翻译自Statistic in Spark SQl explained[https://towardsdatascience.com/statistics-in-spark-sql-explai...

76

01-01 08:00

Spark SQL explaind中的统计信息-深入了解CBO优化

本文翻译自Statistic in Spark SQl explained[https://towardsdatascience.com/statistics-in-spark-sql-explai...

74

01-01 08:00

sparkling是什么意思，spar是什么意思翻译

sparkling是什么意思，spar是什么意思翻译hadoop和spark是什么关系啊？ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器

74

«
1
2
3
4
5
6
»