重复数据导入Doris主键模型表,表会越来越大?!

Viewed 69

场景:使用Seatunnel定时同步业务数据到Doris表(主键模型)

问题:使用Seatunnel同步数据(新增数据和一部分历史数据)到Doris后,根据Doris文档,相同记录导入主键模型的表,新记录会覆盖掉旧记录,但实际只是旧记录在内部被标记为逻辑删除,并未实际删除,从而导致表越来越大。那重复的数据导入Doris,Doris能否丢弃或删除记录,只保留最新导入的那条记录,以避免表越来越大的问题?

2 Answers

不会的,这些被标记的数据,在进行base compaction的时候会物理删除。

导入会触发compaction,或者手动触发 compaction 触发compaction

还能这样?你是明细模型吧