【已解决】doris2.0.4,多表持续streamload一段时间后,其中一个BE的CPU、内存、IO负载明显高于其他节点,写入速度越来越慢

Viewed 178

doris2.0.4版本,1FE + 3BE, (16core+64G) 多个表持续streamload一段时间后,总是一个BE的CPU、内存、IO负载高于其他节点,写入速度越来越慢。flink写的是fe的地址。

如果出现就要重启问题BE,1-2就要发生一次,看起来是必现问题。

其他信息如下:log很大,看了下没有特殊报错信息,暂时没贴。
大部分表结构:3个副本,10个桶
image.png
查了库中表的数据倾斜,没发现倾斜问题。大部分表都是没有分区,10个分桶。
image.png
蓝线负载高的节点就是 94节点。导入指定的是FE节点,
image.png image.png
image.png
image.png
image.png
image.png
事务执行时间越来越长,导入时间越来越耗时
image.png
94的FD很高
image.png
补充3个compaction score的图,94节点score貌似时高时低:
image.png
image.png
CCscore: 浅蓝色的94
image.png
image.png

ALL Compaction Base:
image.png
ALL BE Cumylate:
image.png

-------0531补充-----

IO:

image.png
94节点后台log:
image.png

94节点 top -H
image444-2.jpeg

iotop:
94节点异常节点iotop:
image111-2.jpeg
image222-2.jpeg
image333-2.jpeg

其他正常节点iotop:
image-normal1-1.jpegimage-normal2-1.jpeg

这个可能是什么问题导致的呢?或者从什么方向排查呢?如果需要其他信息我可以补充。

1 Answers

解决方案更新

在 be.conf 中增加 sync_tablet_meta = false,如果还是有问题就升级到 2.0.10 及以上版本的。


提供下 compaction score 的截图以及 top -H 的截图的。