spark

01-01 08:00

SparkStreaming使用mapWithState时，设置timeout()无法生效问题解决方案

SparkStreaming使用mapWithState时，设置timeout()无法生效问题解决方案,前言当我在测试SparkStreaming的状态操作mapWithState算子时，当我们设置timeout(3s)的时候，3s过后数据还是不会过期，不对此key进行操作，等到30s左右才会清除过期的数据。百度了很久，关于timeout的资料很少，更没有解决这个问题的文章，所以说，百度也不是万能

217

01-01 08:00

SparkStreaming使用mapWithState时，设置timeout()无法生效问题解决方案

SparkStreaming使用mapWithState时，设置timeout()无法生效问题解决方案,SparkStreaming使用mapWithState时，设置timeout()无法生效问题解决方案前言当我在测试SparkStreaming的状态操作mapWithState算子时，当我们设置timeout(3s)的时候，3s过后数据还是不会过期，不对此key进行操作，等到30s左右才会清除

131

01-01 08:00

Spark Delta Lake 0.4.0 发布，支持 Python API 和部分 SQL

Spark Delta Lake 0.4.0 发布，支持 Python API 和部分 SQL,ApacheSpark发布了DeltaLake0.4.0，主要支持DML的PythonAPI、将Parquet表转换成DeltaLake表以及部分SQL功能。下面详细地介绍这些功能部分功能的SQL支持SQL的支持能够为用户提供极大的便利，如果大家去看数砖的DeltaLake产品，你肯定已经看到它已经支持

136

01-01 08:00

Spark 3.0 中七个必须知道的 SQL 性能优化

Spark 3.0 中七个必须知道的 SQL 性能优化,本文来自IBM东京研究院的高级技术人员KazuakiIshizaki博士在SparkSummitNorthAmerica2020的《SQLPerformanceImprovementsataGlanceinApacheSpark3.0》议题的分享，本文视频参见今天的推文第三条。PPT请关注过往记忆大数据并后台回复sparksql3获取。Spa

175

01-01 08:00

Spark源码阅读的正确打开方式

Spark源码阅读的正确打开方式,Spark源码阅读的正确打开方式群主王知无大数据技术与架构Spark发展至今，应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面，吊打其他的大数据处理框架。Spark至今只经历过1.x、2.x和3.x三个大版本的变化，在核心实现上，我们在Github能看到的最早的实现是0.5版本，这个版本只有1万多行代码，就把S

113

01-01 08:00

SparkRDD转DataSet/DataFrame的一个深坑

SparkRDD转DataSet/DataFrame的一个深坑,SparkRDD转DataSet/DataFrame的一个深坑半个橙子丶大数据技术与架构场景描述：本文是根据读者反馈的一个问题总结而成的。关键词：SaprkRDD原需求：希望在map函数中将每一个rdd转为DataSet或者DataFrame。SparkRDD转为DataSet的两种方式第一种方法是使用反射来推断包含特定对象类型的RD

126

01-01 08:00

Spark 从 Kafka 读数并发问题

Spark 从 Kafka 读数并发问题,Spark从Kafka读数并发问题过往记忆大数据过往记忆大数据经常使用ApacheSpark从Kafka读数的同学肯定会遇到这样的问题：某些Spark分区已经处理完数据了，另一部分分区还在处理数据，从而导致这个批次的作业总消耗时间变长；甚至导致Spark作业无法及时消费Kafka中的数据。为了简便起见，本文讨论的SparkDirect方式读取Kafka中的

199

01-01 08:00

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就错

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就错,SparkSQL中BroadcastJoin一定比ShuffleJoin快？那你就错了。过往记忆大数据过往记忆大数据本资料来自Workday的软件开发工程师JiannengLi在SparkSummitNorthAmerica2020的《OnImprovingBroadcastJoinsinSpar

188

01-01 08:00

Spark 3.0 中七个必须知道的 SQL 性能优化

Spark 3.0 中七个必须知道的 SQL 性能优化,Spark3.0中七个必须知道的SQL性能优化过往记忆大数据过往记忆大数据本文来自IBM东京研究院的高级技术人员KazuakiIshizaki博士在SparkSummitNorthAmerica2020的《SQLPerformanceImprovementsataGlanceinApacheSpark3.0》议题的分享，本文视频参见今天的推文

143

01-01 08:00

Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战

Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战,Spark3.0新特性在FreeWheel核心业务数据团队的应用与实战引言相信作为Spark的粉丝或者平时工作与Spark相关的同学大多知道，Spark3.0在2020年6月官方重磅发布，并于9月发布稳定线上版本，这是Spark有史以来最大的一次release，共包含了3400多个patches，而且恰逢Spark发布的第十

232

«
1
2
3
4
5
6
»