hive

01-01 08:00

Hive（七）分区表和分桶表

分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要...

164

01-01 08:00

hive orc表'orc.create.index'='true'与'orc.create.index'='false'

hive orc表'orc.create.index'='true'与'orc.create.index'='false',hiveorc表'orc.create.index'='true'与'orc.create.index'='false'hiveORC文件存储格式是以列存的方式，在查询表中少数列数据，不必要去查询没条数据的所有字段；但是如果一个列的值全部存储一起，查询一个列的一条数据，会将整

160

01-01 08:00

hive的介绍以及日常的使用注意

Hive主要有三个角色：HiveServer2、Metastore Server、以及代理角色Gateway 主要两个服务端守护进程： 1、Hiveserver2：支撑JDBC访问，Thrift服务...

160

01-01 08:00

Hive函数进阶(hive常用函数总结)

Hive函数进阶(hive常用函数总结),Hive函数进阶explode（UDTF）createtablethe_nba_championship(team_namestring,champion_yeararray)rowformatdelimitedfieldsterminatedby','collectionitemsterminatedby'|';--使用explode函数对champio

158

01-01 08:00

HIVE-用户自定义函数

HIVE-用户自定义函数,HIVE-用户自定义函数HIVE-用户自定义函数前言更多往期文章请查看大数据学习目录当Hive提供的内置函数无法满足实际的业务处理需要时，可以考虑使用用户自定义函数进行扩展。用户自定义函数分为以下三类：UDF（UserDefinedFunction）。用户自定义函数，一进一出UDAF（UserDefinedAggregationFunction）。用户自定义聚集函数，多进

157

01-01 08:00

Hive性能调优(四)——如何解决数据倾斜问题

Hive性能调优(四)——如何解决数据倾斜问题,Hive性能调优(四)——如何解决数据倾斜问题目录一.不可拆卸大文件二.处理大量相同的键1.含有大量无意义的数据2.某个key值数量远大于其他key三.参考文章一.不可拆卸大文件BZip2GzipLz4Snappy未压缩所用时间（ms）177242448550351压缩大小（Mb）16192833166前面测试过数据的压缩。Gzip不支持分割，只能一

151

01-01 08:00

Hive知识(hive知识点总结归纳)

Hive知识(hive知识点总结归纳),数据库操作数据库创建--数据库创建createdatabasepython;--添加描述信息和属性值createdatabasepython_dbcomment'python_database'withdbproperties('name'='python');--可以指定数据库的位置createdatabasepython_locationlocation

148

01-01 08:00

hive导出数据到mysql报错2.4 GB of 2.1 GB virtual memory used. Killing container.

hive导出数据到mysql报错2.4 GB of 2.1 GB virtual memory used. Killing container. 问题描述 Container [pid=3962,containerID=container_1632883011739_0002_01_000002] is running 270113280B beyond the ‘VIRTUAL‘ memory limit. Current usage: 91.9 MB of

147

01-01 08:00

Hive千亿级数据倾斜解决方案

Hive千亿级数据倾斜解决方案,Hive千亿级数据倾斜解决方案数据倾斜问题剖析本文首发于公众号【五分钟学大数据】数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显，这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个任务的数据量只有几百万，它即使发生了数据倾斜，所有数据都跑到一台机器去执行，对于几百万的数据量，一台机器执

147

01-01 08:00

Hive（5）--Hive操作语句

Hive（5）--Hive操作语句,数据库级别语句展示数据库语法：showdatabases;复制代码案例：showdatabases;database_name|--------------+default|hive_databases|复制代码创建数据库语法：CREATE(DATABASE|SCHEMA)[IFNOTEXISTS]数据库名称--DATABASE|SCHEMA是等价的[COMME

145

«
1
2
3
4
5
6
7
»