首页
博客
源码
资源
博客
源码
写文章
发布博客
发布资源
登录
X
hive
相关资讯
热门
最新
后端
01-01 08:00
后端
Hive(七)分区表和分桶表
分区表 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要...
164
后端
01-01 08:00
后端
hive orc表'orc.create.index'='true'与'orc.create.index'='false'
hive orc表'orc.create.index'='true'与'orc.create.index'='false',hiveorc表'orc.create.index'='true'与'orc.create.index'='false'hiveORC文件存储格式是以列存的方式,在查询表中少数列数据,不必要去查询没条数据的所有字段;但是如果一个列的值全部存储一起,查询一个列的一条数据,会将整
160
后端
01-01 08:00
后端
hive的介绍以及日常的使用注意
Hive主要有三个角色:HiveServer2、Metastore Server、以及代理角色Gateway 主要两个服务端守护进程: 1、Hiveserver2:支撑JDBC访问,Thrift服务...
160
代码人生
01-01 08:00
代码人生
Hive函数进阶(hive常用函数总结)
Hive函数进阶(hive常用函数总结),Hive函数进阶explode(UDTF)createtablethe_nba_championship(team_namestring,champion_yeararray)rowformatdelimitedfieldsterminatedby','collectionitemsterminatedby'|';--使用explode函数对champio
158
后端
01-01 08:00
后端
HIVE-用户自定义函数
HIVE-用户自定义函数,HIVE-用户自定义函数HIVE-用户自定义函数前言更多往期文章请查看大数据学习目录当Hive提供的内置函数无法满足实际的业务处理需要时,可以考虑使用用户自定义函数进行扩展。用户自定义函数分为以下三类:UDF(UserDefinedFunction)。用户自定义函数,一进一出UDAF(UserDefinedAggregationFunction)。用户自定义聚集函数,多进
157
后端
01-01 08:00
后端
Hive性能调优(四)——如何解决数据倾斜问题
Hive性能调优(四)——如何解决数据倾斜问题,Hive性能调优(四)——如何解决数据倾斜问题目录一.不可拆卸大文件二.处理大量相同的键1.含有大量无意义的数据2.某个key值数量远大于其他key三.参考文章一.不可拆卸大文件BZip2GzipLz4Snappy未压缩所用时间(ms)177242448550351压缩大小(Mb)16192833166前面测试过数据的压缩。Gzip不支持分割,只能一
151
代码人生
01-01 08:00
代码人生
Hive知识(hive知识点总结归纳)
Hive知识(hive知识点总结归纳),数据库操作数据库创建--数据库创建createdatabasepython;--添加描述信息和属性值createdatabasepython_dbcomment'python_database'withdbproperties('name'='python');--可以指定数据库的位置createdatabasepython_locationlocation
148
百科问答
01-01 08:00
百科问答
hive导出数据到mysql报错2.4 GB of 2.1 GB virtual memory used. Killing container.
hive导出数据到mysql报错2.4 GB of 2.1 GB virtual memory used. Killing container. 问题描述 Container [pid=3962,containerID=container_1632883011739_0002_01_000002] is running 270113280B beyond the ‘VIRTUAL‘ memory limit. Current usage: 91.9 MB of
147
后端
01-01 08:00
后端
Hive千亿级数据倾斜解决方案
Hive千亿级数据倾斜解决方案,Hive千亿级数据倾斜解决方案数据倾斜问题剖析本文首发于公众号【五分钟学大数据】数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显,这里要注意本篇文章的标题—“千亿级数据”,为什么说千亿级,因为如果一个任务的数据量只有几百万,它即使发生了数据倾斜,所有数据都跑到一台机器去执行,对于几百万的数据量,一台机器执
147
代码人生
01-01 08:00
代码人生
Hive(5)--Hive操作语句
Hive(5)--Hive操作语句,数据库级别语句展示数据库语法:showdatabases;复制代码案例:showdatabases;database_name|--------------+default|hive_databases|复制代码创建数据库语法:CREATE(DATABASE|SCHEMA)[IFNOTEXISTS]数据库名称--DATABASE|SCHEMA是等价的[COMME
145
«
1
2
3
4
5
6
7
»