阅读 487

ClickHouse之SummingMergeTree详谈

对于不查询明细,只关心以维度进行汇总聚合结果的场景。如果只使用普通的MergeTree 的话,无论是存储空间的开销,还是查询时临时聚合的开销都比较大。

ClickHouse 为了这种场景,提供了一种能够“预聚合”的引擎 SummingMergeTree。

案例演示

创建表

create table order_table5 (     id           UInt32,     item_id       String,     total_amount Decimal(16, 2),     create_time  Datetime ) engine = SummingMergeTree(total_amount)       partition by toYYYYMMDD(create_time) primary key (id) order by (id,item_id ); 复制代码

插入数据

insert into order_table5 values (101, 's_001', 1000.00, '2020-06-01 12:00:00'),        (102, 's_002', 2000.00, '2020-06-01 11:00:00'),        (102, 's_004', 2500.00, '2020-06-01 12:00:00'),        (102, 's_002', 2000.00, '2020-06-01 13:00:00'),        (102, 's_002', 12000.00, '2020-06-01 13:00:00'),        (102, 's_002', 600.00, '2020-06-02 12:00:00'); 复制代码

执行第一次查询

截屏2021-11-18 下午3.55.24.png

手动合并

OPTIMIZE TABLE order_table5 FINAL; 复制代码

再次查询

截屏2021-11-18 下午3.56.37.png

结论

◼ 以 SummingMergeTree()中指定的列作为汇总数据列

◼ 可以填写多列必须数字列,如果不填,以所有非维度列且为数字列的字段为汇总数据列

◼ 以 order by 的列为准,作为维度列

◼ 其他的列按插入顺序保留第一行

◼ 不在一个分区的数据不会被聚合

开发建议

设计聚合表的话,唯一键值、流水号可以去掉,所有字段全部是维度、度量或者时间戳。

问题

问:能不能直接执行以下 SQL 得到汇总值:

select total_amount from order_table5 where item_id=’’ and create_date=’xxx’ 复制代码

答:不行,可能会包含一些还没来得及聚合的临时明细

如果要是获取汇总值,还是需要使用 sum 进行聚合,这样效率会有一定的提高,但本身ClickHouse 是列式存储的,效率提升有限,不会特别明显。

select sum(total_amount) from order_table5 where item_id=’’ and create_date=‘xxx’


作者:杨慕晚
链接:https://juejin.cn/post/7032476867965960199

文章分类
代码人生
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐