【已解决】2.0.11版本,cdc建表count查询慢

Viewed 37

今天遇到一个问题,使用cdc整库同步脚本同步了1张表 表A,三千多万的数据,同步完成后cdc还在运行同步增量,这时候使用count查询表内数据量,使用了三秒多。
然后新建了一个同样表结构的表 表B 将表A当前全量数据INSERT INTO 到表B,对表B进行count,结果表B 几百毫秒就出结果了。
我这边以为是cdc任务影响 关闭cdc任务 仍然是三秒多。
doris版本2.0.11,不明白是什么原因导致的。

1 Answers

是这样的,cdc每次写入都是比较少的数据,所以他会产生大量的版本(底层的实现),所以count的时候对他来说有个扫描版本合并的过程,所以比较慢,但是你一次insert into 以后,就是整个一个大版本了,该merge的也merge了,效率会高很多

所以,你停掉cdc任务后,估计得等会儿,他A表如果Compaction完毕,两个表可能性能就差不多了。