首页
博客
源码
资源
博客
源码
写文章
发布博客
发布资源
登录
X
spark
相关资讯
热门
最新
代码人生
01-01 08:00
代码人生
spark调优(二):UDF减少JOIN和判断
spark调优(二):UDF减少JOIN和判断,1.起因平时写sql语句的时候经常会有大表与小标做关联查询,然后再进行groupby等逻辑分组处理,或者是有很多判断条件,sql里有很多if语句,一些区间类的结构查询,这种sql语句直接放到spark上执行,会有大量的shuffle,而且执行时间巨慢尤其是大表和小标数据差距特别大,大表作为主要处理对象,进行shuffle和map的时候花费大量时间2.
253
后端
01-01 08:00
后端
Spark自定义累加器的使用实例详解
Spark自定义累加器的使用实例详解,这篇文章主要介绍了Spark累加器的相关内容,首先介绍了累加器的简单使用,然后向大家分享了自定义累加器的实例代码,需要的朋友可以参考下。加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。累加器简单使用Spark内
239
后端
01-01 08:00
后端
Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战
Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战,Spark3.0新特性在FreeWheel核心业务数据团队的应用与实战引言相信作为Spark的粉丝或者平时工作与Spark相关的同学大多知道,Spark3.0在2020年6月官方重磅发布,并于9月发布稳定线上版本,这是Spark有史以来最大的一次release,共包含了3400多个patches,而且恰逢Spark发布的第十
229
代码人生
01-01 08:00
代码人生
Spark环境搭建和使用方法(spark环境搭建及配置)
Spark环境搭建和使用方法(spark环境搭建及配置),目的安装Spark在spark-shell中运行代码编写Spark独立应用程序基础环境Spark支持4种不同类型的部署方式,包括:Local模式:单机模式Standalone模式:使用Spark自带的简单集群管理器YARN模式:使用YARN作为集群管理器Mesos模式:使用Mesos作为集群管理器Spark可以独立安装使用,也可以和Hado
215
后端
01-01 08:00
后端
SparkStreaming使用mapWithState时,设置timeout()无法生效问题解决方案
SparkStreaming使用mapWithState时,设置timeout()无法生效问题解决方案,前言当我在测试SparkStreaming的状态操作mapWithState算子时,当我们设置timeout(3s)的时候,3s过后数据还是不会过期,不对此key进行操作,等到30s左右才会清除过期的数据。百度了很久,关于timeout的资料很少,更没有解决这个问题的文章,所以说,百度也不是万能
214
后端
01-01 08:00
后端
Spark中将将数据Array或者list转为dataFrame编造数据
Spark中将将数据Array或者list转为dataFrame编造数据,Spark中将将数据Array或者list转为dataFrame编造数据其实只是为了编造数据,找了几篇都不满意。项目中使用的是schema创建,下面将简单的创建写一下。valschema=types.StructType(Array(StructField("TMNL_iD",StringType,false),//想建立几
207
代码人生
01-01 08:00
代码人生
Spark应用程序初试(总结开发spark应用程序的基本步骤)
Spark应用程序初试(总结开发spark应用程序的基本步骤),1SparkShell和Spark应用程序Spark可以通过一个简单的、专门用于执行Scala、Python、R和SQL代码的Sparkshell访问数据集。在Spark的安装目录下的bin目录下,有spark-shell用于启动spark的交互式命令行、pyspark用于启动python的交互式命令行、sparkR用于启动R的交互式
198
后端
01-01 08:00
后端
Spark的广播变量和累加器使用方法代码示例
Spark的广播变量和累加器使用方法代码示例,这篇文章主要介绍了Spark的广播变量和累加器使用方法代码示例,文中介绍了广播变量和累加器的含义,然后通过实例演示了其用法,需要的朋友可以参考下。一、广播变量和累加器通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器上并没有被更新的变
196
后端
01-01 08:00
后端
Spark 从 Kafka 读数并发问题
Spark 从 Kafka 读数并发问题,Spark从Kafka读数并发问题过往记忆大数据过往记忆大数据经常使用ApacheSpark从Kafka读数的同学肯定会遇到这样的问题:某些Spark分区已经处理完数据了,另一部分分区还在处理数据,从而导致这个批次的作业总消耗时间变长;甚至导致Spark作业无法及时消费Kafka中的数据。为了简便起见,本文讨论的SparkDirect方式读取Kafka中的
195
代码人生
01-01 08:00
代码人生
Spark streaming 输出数据到redis
Spark streaming 输出数据到redis,上次使用了sparkstreaming读取redis中的数据并进行处理。这次解决一下输出的问题。最简单的输出方式是使用计算的结果对象上自带的print函数,输出到运行的屏幕上。但是我运行的时候使用的是远程的分布式环境。然后用程序推送运行的。因此需要一个比较方便查看运行状况的方式。尽管sparkstreaming额外还提供了一些像saveAsTe
191
«
1
2
3
4
5
6
»