selectDB版本: 4.0.4 (doris 3.0.3)，doris be节点重启时, 部分flink任务会偶发出现停止写入doris,看起来是死锁状态

Question

selectDB版本: 4.0.4 (doris 3.0.3)
flink版本:1.17
flinl-doris-connector版本:24.0.1

出现问题的场景:
1、doris集群be节点重启
2、运行中的flink任务出现报错重启,也存在没有重启的flink任务.会出现连续的checkpoint 10min超时后失败,开始没有数据写入doris.
3、flink 的tm节点日志没有报错,最后一条日志停留在:"table xxx start execute load for label yyyy;
4、flink任务状态还是正常,cpu/内存都不高.看了线程栈后,线程都卡在RecordBuffer类的writeQueue.take()和readQueue.take()方法中

现在怀疑的问题点:
1、http stream流遇到be异常后断开,但不抛异常,read方法不再调用.所以writeQueue会空了,卡在writeQueue.take()方法
2、某些异常,导致flink框架不再发送数据到 Doris Writer,没有数据写入checkpoint的消息也收不到

求熟悉这方面或者遇到过相似问题的大佬,指导下.

如题目描述,详细信息见issues:
https://github.com/apache/doris-flink-connector/issues/536

JNSimba · Answer

可以贴一下报错前后的taskmanager的日志，issuse里面貌似只有一部分

selectDB版本: 4.0.4 (doris 3.0.3)，doris be节点重启时, 部分flink任务会偶发出现停止写入doris,看起来是死锁状态

1 Answers