spark

01-01 08:00

spark项目实战代码（spark菜鸟教程）

spark项目实战代码（spark菜鸟教程）前言大数据开发的日常工作中，开发人员经常需要使用 Spark、Flink 等计算引擎作为工具来实现一些业务逻辑的计算。以 Spark 为例，开发人员会使用 SparkSQL、DataFrame、RDD 等不同形式的API来实现业务需求。通常情况下，简单的需求都可以通过 SparkSQL、DataFrame 很方便的实现，其简洁的API也是其深受数据分析师青睐的原因之一。但是正是因为 Spark

109

01-01 08:00

spark读取hdfs文件规则（spark处理超大文件方法）

spark读取hdfs文件规则（spark处理超大文件方法）spark作为现在主流的分布式计算框架，已经融入到了很多的产品中作为ETL的解决方案。而我们如果想要去测试这样的产品就要对分布式计算的原理有个清晰的认知并且也要熟悉分布式计算框架的使用来针对各种ETL场景设计不同的测试数据。而一般来说我们需要从以下两个角度来进行测试。　　· ETL能兼容各种不同的数据(不同的数据规模，数据分布和数据类型)　　· ETL处理数据的正确性　　测试数据兼容　　E

148

01-01 08:00

spark读取hbase数据速度（spark读取hbase提速的方法）

spark读取hbase数据速度（spark读取hbase提速的方法）简介POLARDB数据库是阿里云自研的下一代关系型云数据库，100%兼容MySQL，性能最高是MySQL的6倍，但是随着数据量不断增大，面临着单条SQL无法分析出结果的现状。X-Pack Spark为数据库提供分析引擎，旨在打造数据库闭环，借助X-Pack Spark可以将POLARDB数据归档至列式存储Parquet文件，一条SQL完成复杂数据分析，并将分析结果回流到业务库提供查询。本文主要介绍

176

01-01 08:00

Spark应用程序初试(总结开发spark应用程序的基本步骤)

Spark应用程序初试(总结开发spark应用程序的基本步骤),1SparkShell和Spark应用程序Spark可以通过一个简单的、专门用于执行Scala、Python、R和SQL代码的Sparkshell访问数据集。在Spark的安装目录下的bin目录下，有spark-shell用于启动spark的交互式命令行、pyspark用于启动python的交互式命令行、sparkR用于启动R的交互式

204

01-01 08:00

Spark环境搭建和使用方法(spark环境搭建及配置)

Spark环境搭建和使用方法(spark环境搭建及配置),目的安装Spark在spark-shell中运行代码编写Spark独立应用程序基础环境Spark支持4种不同类型的部署方式，包括：Local模式：单机模式Standalone模式：使用Spark自带的简单集群管理器YARN模式：使用YARN作为集群管理器Mesos模式：使用Mesos作为集群管理器Spark可以独立安装使用，也可以和Hado

219

01-01 08:00

spark调优（二）：UDF减少JOIN和判断

spark调优（二）：UDF减少JOIN和判断,1.起因平时写sql语句的时候经常会有大表与小标做关联查询，然后再进行groupby等逻辑分组处理，或者是有很多判断条件，sql里有很多if语句，一些区间类的结构查询，这种sql语句直接放到spark上执行，会有大量的shuffle，而且执行时间巨慢尤其是大表和小标数据差距特别大，大表作为主要处理对象，进行shuffle和map的时候花费大量时间2.

259

01-01 08:00

spark streaming 使用实例：用户行为统计

spark streaming 使用实例：用户行为统计,前面我们已经做好了数据的输入以及数据的输出操作了，现在我们可以开始使用开始sparkstreaming的一些简单的使用了。这次完成的处理是对一个用户行为数据流来做分析。数据源的数据原本是一个购物网站的数据集，被我做成了重复利用的数据（循环的读取），它共有五个字段。不过这次用到的只有第3个字段（代表用户的行为分类）。这个字段的取值范围是1到4。

167

01-01 08:00

Spark streaming 输出数据到redis

Spark streaming 输出数据到redis,上次使用了sparkstreaming读取redis中的数据并进行处理。这次解决一下输出的问题。最简单的输出方式是使用计算的结果对象上自带的print函数，输出到运行的屏幕上。但是我运行的时候使用的是远程的分布式环境。然后用程序推送运行的。因此需要一个比较方便查看运行状况的方式。尽管sparkstreaming额外还提供了一些像saveAsTe

194

01-01 08:00

spark：local模式环境-搭建和使用

spark：local模式环境-搭建和使用,1/下载到官方网站去下载apachespark官网：https://spark.apache.org/downloads.html或者是清华大学镜像库：https://mirrors.tuna.tsinghua.edu.cn/复制代码2/从本地上传到linux服务器通过rz命令rzspark-3.1.1-bin-hadoop3.2.tgz复制代码3/解压

105

01-01 08:00

spark读取hbase数据速度（spark读取hbase提速的方法）

spark读取hbase数据速度（spark读取hbase提速的方法）,简介POLARDB数据库是阿里云自研的下一代关系型云数据库，100%兼容MySQL，性能最高是MySQL的6倍，但是随着数据量不断增大，面临着单条SQL无法分析出结果的现状。X-PackSpark为数据库提供分析引擎，旨在打造数据库闭环，借助X-PackSpark可以将POLARDB数据归档至列式存储Parquet文件，一条S

186

«
1
2
3
4
5
6
»