一个导入事务长时间publish version failed,导致同库表导入事务积压

Viewed 53

版本:2.0.3

背景:业务通过stream load对Doris unique表进行数据导入,更新数据条数约3700条,导入开启攒批模式
问题描述:有个导入事务,在分发版本时候一直失败,且一直重试,导致分发版本动作重复16W+次,从而导致同表的导入事务延迟
影响时间:9:14-9:50

事务飙升截图:
image.png

版本分发失败截图:
image.png

事务执行信息截图:
image.png

提问:
1、publish version一直失败有没有相关针对性的告警指标?
2、publish version失败的通常原因主要有哪些?磁盘IO?网络IO?机器负载?
3、除了手动取消该事务操作外,还有没有其他优雅的方法来处理该类问题?

2 Answers

该问题为FE edit log较大,刷新较多影响到publish version,导致mow【写合并】确实version,从而出现一只重复publish version的操作,建议升级2.0.15版本或者2.1+

  1. 可以通过show transaction查看事务状态
  2. 这个得具体分析一下看看,方便的话加我微信(hhj_0530)发我一下fe和be的日志