升级2.1.7后大表查询CPU利用率飙升

Viewed 144

原先在2.0.4中平稳执行的sql,升级到2.1.7(doris-2.1.7-rc03-443e87e203)后 CPU很容易就耗尽 特别是多个稍微大的表(天分区5千万以上)关联查询并发执行时 整个集群响应时延非常长甚至超时,部分be节点直接挂掉

clipboard_20241112161249980.png

d34c42c158ca98d6087d0c012158d3f.png

业务不变情况下升级前后的CPU使用对比
image.png

调整过以下两参数重启fe后 效果不明显

set global experimental_enable_parallel_scan = false;
set global parallel_pipeline_task_num=1; 

目前只能暂停这些大表的查询,无法回退旧版的情况 是否有其它优化的方法

3 Answers

处理中,有进展更新回帖

看 profile 的话,似乎是等待 rf 超时,导致 scan 读了特别多的数据。楼主加我微信我们一起看下呢?839661683

我这边从2.1.5升级到2.1.7后,前两个小时有一段CPU高的情况后面就下去了,当时没看进程发生了什么,后面才发现,所以现在不知道这段时间发生了什么。。。
image.png