Doris版本:doris-2.0.3-rc06-37d31a5
一个Be节点使用show beckends命令查看状态,显示是正常的,但是我们所有的FlinkCDC同步任务都失败了。
查看报错信息如下:
Caused by: org.apache.doris.flink.exception.DorisRuntimeException: stream load error: [INTERNAL_ERROR]VNodeChannel[435734-15965742], load_id=7a482ff38dae6ade-d061e494e23c59a1, txn_id=34561855, node=http://XXXXX:8060, open failed, err: [INTERNAL_ERROR]failed to open tablet writer, error=RPC call is timed out, error_text=[E1008]Reached timeout=60000ms @http://XXXXX:8060, info=VNodeChannel[435734-15965742], load_id=7a482ff38dae6ade-d061e494e23c59a1, txn_id=34561855, node=http://XXXXX:8060
看着就是连不上该Be节点。
一开始将FlinkCDC任务直接从checkpoint启动,运行一会就失败。
最终重启该Be节点,FlinkCDC任务才能正常从checkpoint启动。
查看grafana上的指标显示这段时间也是挂掉的:
去Be节点查看be.out,并没有发现崩溃日志。
每个Be配置的都有守护进程,如果进程失败后应该是自启的。