hive

01-01 08:00

HIVE-用户自定义函数

HIVE-用户自定义函数,HIVE-用户自定义函数前言更多往期文章请查看大数据学习目录当Hive提供的内置函数无法满足实际的业务处理需要时，可以考虑使用用户自定义函数进行扩展。用户自定义函数分为以下三类：UDF（UserDefinedFunction）。用户自定义函数，一进一出UDAF（UserDefinedAggregationFunction）。用户自定义聚集函数，多进一出；类似于：count

142

01-01 08:00

Hive优化笔记

1.hive参数优化 1.1 map个数优化 map的个数是如何决定的：一个文件在执行数据处理的时候，被分成文件的个数如下： 1.1.1 减少map个数：备注：a.四个参数的配置结果大小要满足如...

141

01-01 08:00

hive字段级别血缘实现

背## 背景为便于hive表数据上下游的管理(评估逻辑变更的影响、快速追溯数据来源)，需要构建hive字段级别的数据血缘，hive本身提供提供了一个用于打印数据血缘的钩子类，我们可以借助其来进行实...

137

01-01 08:00

Hive事务管理避坑指南

Hive事务管理避坑指南,1简介Hive作为Hadoop家族历史最悠久的组件之一，一直以其优秀的兼容性支持和稳定性而著称，越来越多的企业将业务数据从传统数据库迁移至Hadoop平台，并通过Hive来进行数据分析。但是我们在迁移的过程中难免会碰到如何将传统数据库的功能也迁移到Hadoop的问题，比如说事务。事务作为传统数据库很重要的一个功能，在Hive中是如何实现的呢？Hive的实现有什么不一样的地

133

01-01 08:00

Hive基础及进阶

一、介绍 Hive起源于Facebook，它是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务运...

133

01-01 08:00

hivesql优化-FileInputFormat中切片的大小的参数

hivesql优化-FileInputFormat中切片的大小的参数,hive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行.而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可以运行的job的最大值,该参数默

130

01-01 08:00

Hive基础及进阶

一、介绍 Hive起源于Facebook，它是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务运...

130

01-01 08:00

Hive SQL的底层编译过程详解

Hive SQL的底层编译过程详解,本文结构采用宏观着眼，微观入手，从整体到细节的方式剖析HiveSQL底层原理。第一节先介绍Hive底层的整体执行流程，然后第二节介绍执行流程中的SQL编译成MapReduce的过程，第三节剖析SQL编译成MapReduce的具体实现原理。HiveHive是什么？Hive是数据仓库工具，再具体点就是一个SQL解析引擎，因为它即不负责存储数据，也不负责计算数据，只负

127

01-01 08:00

Hive（七）分区表和分桶表

分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要...

123

01-01 08:00

hive.groupby.skewindata及数据倾斜优化

hive.groupby.skewindata及数据倾斜优化一、hive.groupby.skewindata set hive.groupby.skewindata=true; 数据倾斜时负载均衡，当选项设定为true，生成的查询计划会有两个MRJob。第一个MRJob 中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的GroupBy Key

116

«
1
2
3
4
5
6
7
»