版本3.0.1,be集群单个节点内存持续高水位,导致OOM

Viewed 65

版本3.0.1
image.png
我有3台服务器组成be集群,服务器是64G内存,2台内存正常,使用40G左右,其中一台持续内存占用60G左右,隔几个小时就会OOM,也无法写入数据,使用flink同步数据出错:
[INTERNAL_ERROR]close wait failed coz rpc error. VNodeChannel[6216956-12307], load_id=564eafba349709f8-b37d92222f064da9, txn_id=14069516, node=10.100.28.73:8060, add batch req success but status isn't ok, err: [MEM_LIMIT_EXCEEDED]PStatus: (10.100.28.73)[MEM_LIMIT_EXCEEDED]PreCatch error code:11, [E11] Allocator sys memory check failed: Cannot alloc:8192, consuming tracker:<(FromLoadChannel)Load#Id=564eafba349709f8-b37d92222f064da9>, peak used 0, current used 0, exec node:<>, process memory used 56.72 GB exceed limit 56.43 GB or sys available memory 3.26 GB less than low water mark 3.13 GB.
更加官方文档排查,这台的doris_total_rowset_num很高,是其他be的8倍,它的Compaction Score也很高,一直不能下降,请大佬们帮忙看看,谢谢。
image.png
image.png
be.warning日志中不断GC,报以下错误
image.png

2 Answers

1、通过当前资源情况而言,io和mem存在负载,可以适当降低集群并发
2、show backends 看看tabletnum和datause是否均匀

为更具体地了解问题(处理后会更新回帖),可以➕一下W:yz-jayhua

谢谢回复,查询tabletnum和datause如下下图
image.png