大表自助查询支持精确去重性能优化

Viewed 43

版本:2.0.12

有一个自助查询需求,维度是可以任意选择(40个左右),部分指标需要精确去重。表模型选择duplicate,大概60个字段,按天分区(每个分区4个bucket),每天数据量2000w,要支持最多查询一年的数据,目前如下sql查询3个月数据需要30s,集群规模3fe 5be(48c 192g),fe和be单独部署,这个有什么优化方法吗?

select
  pt,
  count(distinct id1) as metric1,
  count(distinct id2) as metric2
from
  xxx
where
  pt >= '20240201'
  and pt <= '20240501'
group by
  pt
limit
  20;
1 Answers