1 | 一、前言 ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS);目前我们使用CH作为实时数仓用于统计分析,在做性能优化的时候使用了 物化视图 这一特性作为优化手段,本文主要分。.. |

一、ClickHouse性能优化
1.1 前言
1 | ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS);目前我们使用CH作为实时数仓用于统计分析,在做性能优化的时候使用了 |
物化视图
这一特性作为优化手段,本文主要分享物化视图的特性与如何使用它来优化ClickHouse的查询性能。
1.2 概念
1 | 数据库中的 `视图(View)` 指的是通过一张或多张表查询出来的 逻辑表 ,本身只是一段 SQL 的封装并 不存储数据。 |
在传统关系型数据库中,Oracle、PostgreSQL、SQL Server等都支持物化视图,而作为MPP数据库的ClickHouse也支持该特性。
1.3 三、ClickHouse物化视图
1 | ClickHouse中的物化视图可以挂接在任意引擎的基础表上,而且会自动更新数据,它可以借助 MergeTree 家族引擎(SummingMergeTree、Aggregatingmergetree等),得到一个实时的预聚合,满足快速查询;但是对 更新 与 删除 操作支持并不好,更像是个插入触发器。 |
创建语法:
1 | CREATE [MATERIALIZED] VIEW [IF NOT EXISTS] [db.]table_name [TO[db.]name] [ENGINE = engine] [POPULATE] AS SELECT ... |
POPULATE 关键字决定了物化视图的更新策略:
若有POPULATE 则在创建视图的过程会将源表已经存在的数据一并导入,类似于 create table … as
若无POPULATE 则物化视图在创建之后没有数据
1.4 四、案例
4.1. 场景
假设有一个日志表login_user_log
来记录每次登录的用户信息,现在需要按用户所属地为维度来统计每天的登录次数。
正常的聚合SQL如下:city为用户所属,login_date为登录时间
1 | SELECT city, login_date, count(1) login_cnt |
group by city, login_date
`增加```text
物化视图
1 | 后的架构如下图所示: |
4.3. 查询统计结果
使用物化视图查询
1 | SELECT city, login_date, sum(login_cnt) cnt |
#### 1.5 总结
在创建 MV 表时,一定要使用 TO 关键字为 MV 表指定存储位置,否则不支持 嵌套视图(多个物化视图继续聚合一个新的视图)
在创建 MV 表时如果用到了多表联查,不能为连接表指定别名,如果多个连接表中存在同名字段,在连接表的查询语句中使用 AS 将字段名区分开
在创建 MV 表时如果用到了多表联查,只有当第一个查询的表有数据插入时,这个 MV 才会被触发
在创建 MV 表时不要使用 POPULATE 关键字,而是在 MV 表建好之后将数据手动导入 MV 表
在使用 MV 的聚合引擎时,也需要按照聚合查询来写sql,因为聚合时机不可控
本文标题: ClickHouse性能优化试试物
发布时间: 2019年10月03日 00:00
最后更新: 2025年12月30日 08:54
原始链接: https://haoxiang.eu.org/bb58deae/
版权声明: 本文著作权归作者所有,均采用CC BY-NC-SA 4.0许可协议,转载请注明出处!

