大表自助查询支持精确去重性能优化

Question

版本：2.0.12

有一个自助查询需求，维度是可以任意选择（40个左右），部分指标需要精确去重。表模型选择duplicate，大概60个字段，按天分区（每个分区4个bucket），每天数据量2000w，要支持最多查询一年的数据，目前如下sql查询3个月数据需要30s，集群规模3fe 5be（48c 192g），fe和be单独部署，这个有什么优化方法吗？

select
  pt,
  count(distinct id1) as metric1,
  count(distinct id2) as metric2
from
  xxx
where
  pt >= '20240201'
  and pt <= '20240501'
group by
  pt
limit
  20;

张彬华 · Accepted Answer

Doris精确去重优化可以参考：BITMAP 精准去重

大表自助查询支持精确去重性能优化

1 Answers