spark

01-01 08:00

Spark解决SQL和RDDjoin结果不一致问题（工作实录）

Spark解决SQL和RDDjoin结果不一致问题（工作实录）,问题描述：DataFrame的join结果不正确，dataframeA(6000无重复条数据)joindataframeB(220条无重复数据，由dataframeA转化而来，key值均源于dataframeA)只有200条数据，丢了20条问题验证：1，查询丢的20条数据，均无异常，不存在Null，数据不存在空格2，重新运行算法，丢1

174

01-01 08:00

spark-shuffle原理&调优

spark-shuffle Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Ma...

71

01-01 08:00

Spark从入门到放弃—Spark SQL

简介 Spark SQL是Spark中用于结构化数据处理的一个模块。与Spark RDD API不同，Spark SQL相关接口提供了关于数据结构以及计算执行过程的更多信息。Spark SQL在内部...

77

01-01 08:00

Spark订单量的实时统计项目

Spark订单量的实时统计项目需求: 1.各省份营业额的实时统计2.各省份订单量的实时统计数据: 第一步：编写Scala代码模拟KafkaProducer产生订单数据 ConstantUtils...

121

01-01 08:00

Spark SQL explaind中的统计信息-深入了解CBO优化

本文翻译自Statistic in Spark SQl explained[https://towardsdatascience.com/statistics-in-spark-sql-explai...

73

01-01 08:00

Spark原理图

为什么使用广播变量因为一个变量在Driver端定义，如果执行计算需要传递到executor的task线程中获取变量副本依次拉取执行此时造成由于变量数据量和任务的个数急剧增长的情况下，造成网络传输的瓶...

76

01-01 08:00

spark 2.3迁移到3.1.2相关改动

spark core 从2.4升级到3.0 1）org.apache.spark.ExecutorPlugin 接口和相关的配置被org.apache.spark.api.plugin.SparkP...

107

01-01 08:00

Spark Join优化-BucketJoin实现

偶然读取到了字节跳动关于Spark做的一些优化，发现其中一项被称为BuckedtJoin的优化项传送门:Spark SQL 在字节跳动数据仓库领域的优化实践 [https://www.infoq....

98

01-01 08:00

Spark-Core 计算基础核心(二) 概念及原理介绍

RDD介绍概念介绍 RDD:Resilient Distributed Datasets 弹性分布式数据集 RDD是最基本的抽象数据模型，代表着一个不可变，可分区，可并行计算的逻辑集合 RDD是一...

102

01-01 08:00

spark-shuffle原理&调优

spark-shuffle Shuffle就是对数据进行重组，由于分布式计算的特性和要求，在实现细节上更加繁琐和复杂在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Ma...

82

«
1
2
3
4
5
6
»