doris在引入group commit后,通过stream load不能同时设置label,如何保证数据不重复

Viewed 67

meet error status: [INTERNAL_ERROR]label and group_commit can't be set at the same time
服务端积攒一定的批次后一起提交,自动生成一个group_commit开头的label,
但是当客户端进行重复发送的时候,服务端无法得知这是不是重复数据。

1 Answers

group commit 是将数据先写入内存,然后将数据放入一个事物中提交。所以同一个label是正常的。
之前没有group commit的时候,也没办法去判断数据是否重复呀,只能去根据label判断这个事物是否进行过导入。但是至于导入的什么数据,是否存在重复数据,这个没办法感知的。

去重这部分可能需要配合表模型,比如Unique或者AGG这种聚合表模型来做了。