首页
博客
源码
资源
博客
源码
写文章
发布博客
发布资源
登录
X
spark
相关资讯
热门
最新
代码人生
01-01 08:00
代码人生
Spark Web界面显示Workers未启动
Spark Web界面显示Workers未启动 项目场景: 选择Standalone模式搭建集群,并检查代码运行结果和Web页面显示 问题描述: 在写好配置文件后用start-all.sh启动该spark集群,三台机器的jps进程都正常,但web页面却没有显示workers和cpu等信息 原因分析: 查看日志文件,master的日志并没有什么异常 workers的日志显示连接不到m
91
后端
01-01 08:00
后端
spark-shuffle原理&调优
spark-shuffle Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Ma...
82
代码人生
01-01 08:00
代码人生
SparkSQL远程访问CDH集群Hive数据表
SparkSQL远程访问CDH集群Hive数据表 创建Maven项目添加如下依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.0</ve
82
后端
01-01 08:00
后端
Spark原理图
为什么使用广播变量因为一个变量在Driver端定义,如果执行计算需要传递到executor的task线程中获取变量副本依次拉取执行此时造成由于变量数据量和任务的个数急剧增长的情况下,造成网络传输的瓶...
81
后端
01-01 08:00
后端
Spark订单量的实时统计项目
Spark订单量的实时统计项目 需求: 1.各省份营业额的实时统计2.各省份订单量的实时统计 数据: 第一步:编写Scala代码模拟KafkaProducer产生订单数据 ConstantUtils...
79
后端
01-01 08:00
后端
Spark从入门到放弃—Spark SQL
简介 Spark SQL是Spark中用于结构化数据处理的一个模块。与Spark RDD API不同,Spark SQL相关接口提供了关于数据结构以及计算执行过程的更多信息。Spark SQL在内部...
78
后端
01-01 08:00
后端
Spark原理图
为什么使用广播变量因为一个变量在Driver端定义,如果执行计算需要传递到executor的task线程中获取变量副本依次拉取执行此时造成由于变量数据量和任务的个数急剧增长的情况下,造成网络传输的瓶...
76
后端
01-01 08:00
后端
Spark SQL explaind中的统计信息-深入了解CBO优化
本文翻译自Statistic in Spark SQl explained[https://towardsdatascience.com/statistics-in-spark-sql-explai...
76
后端
01-01 08:00
后端
Spark SQL explaind中的统计信息-深入了解CBO优化
本文翻译自Statistic in Spark SQl explained[https://towardsdatascience.com/statistics-in-spark-sql-explai...
74
百科问答
01-01 08:00
百科问答
sparkling是什么意思,spar是什么意思翻译
sparkling是什么意思,spar是什么意思翻译hadoop和spark是什么关系啊? Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器
74
«
1
2
3
4
5
6
»