首页
博客
源码
资源
博客
源码
写文章
发布博客
发布资源
登录
X
hive
相关资讯
热门
最新
后端
01-01 08:00
后端
Hive内置函数总结
1、相关帮助操作函数 2、学习内置函数的终极心法 3、测试内置函数的快捷方式 第一种方式:直接使用,不用from语法分支,例如: 第二种方式:创建dual表,帮助我们写完整SQL 4、内置函数列表 ...
559
后端
01-01 08:00
后端
hive字段级别血缘实现
背## 背景 为便于hive表数据上下游的管理(评估逻辑变更的影响、快速追溯数据来源),需要构建hive字段级别的数据血缘,hive本身提供提供了一个用于打印数据血缘的钩子类,我们可以借助其来进行实...
407
后端
01-01 08:00
后端
hive 调优
q1-q5搬运自:https://www.jianshu.com/p/32faae7230d5[https://www.jianshu.com/p/32faae7230d5] 主要是tez模式(hu...
346
代码人生
01-01 08:00
代码人生
Hive-SQL查询连续活跃登录用户思路详解
Hive-SQL查询连续活跃登录用户思路详解,这篇文章主要介绍了Hive-SQL查询连续活跃登陆的用户,活跃用户这里是指连续2天都活跃登录的用户,本文给大家分享解决思路及sql语句,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下连续活跃登陆的用户指至少连续2天都活跃登录的用户解决类似场景的问题创建数据123456789101112CREATETABLEtest5active(dts
333
后端
01-01 08:00
后端
Hive基础及进阶
一、介绍 Hive起源于Facebook,它是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务运...
257
后端
01-01 08:00
后端
Hive企业级性能优化
Hive企业级性能优化,Hive企业级性能优化Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。本文首发于公众号:五分钟学大数据Hive性能问题排查的方式当
233
代码人生
01-01 08:00
代码人生
Hive metastore三种配置方式
Hive metastore三种配置方式 Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 <?xml version="1.0"?>&
201
代码人生
01-01 08:00
代码人生
hivesql优化-FileInputFormat中切片的大小的参数
hivesql优化-FileInputFormat中切片的大小的参数,hive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行.而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可以运行的job的最大值,该参数默
186
后端
01-01 08:00
后端
Hive和Spark分区策略
Hive和Spark分区策略,Hive和Spark分区策略1.概述离线数据处理生态系统包含许多关键任务,最大限度的提高数据管道基础设施的稳定性和效率是至关重要的。这边博客将分享Hive和Spark分区的各种策略,以最大限度的提高数据工程生态系统的稳定性和效率。2.内容大多数SparkJob可以通过三个阶段来表述,即读取输入数据、使用Spark处理、保存输出数据。这意味着虽然实际数据转换主要发生在内
174
后端
01-01 08:00
后端
Hive(七)分区表和分桶表
分区表 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要...
164
«
1
2
3
4
5
6
7
»