【已解决】doris-streamloader加载csv文件误拒数据

Viewed 53

使用doris-streamloader加载csv文件,文件以|@|为字段分隔符,回车为记录分隔符,加载7万条数据,执行加载命令后有17条数据被拒加载失败,但是打开错误连接查看报错信息,原始的数据并没有问题,将数据提取出来单独保存到一个新文件中也可以正常加载成功;从报错信息看系统好像将部分分隔符解析成了逗号;

加载命令:

nohup ./doris-streamloader --source_file="/data/jujube/bin/test/test.dat" --url="http://192.168.18.60:18030" --header="column_separator:|@|?line_delimiter:\n?enclose:\"?escape:\\?trim_double_quotes:true?max_filter_ratio:1" --db="jujube_test" --table="test" --u="root" --p="test" --batch=2000 > load_test.log 2>&1 &

下面为其中一条报错信息:

Reason: actual column number in csv file is  less than  schema column number.actual number: 4, schema column number: 20; line delimiter: [
], column separator: [|@|], enclose:["] escape:[\] 
result values:[43983450, 100331, 2655091, "test"|@|2023-09-01 00:00:08|@|0|@|4669900|@|"金果园(拱北店)"|@|900702720181773512|@|1|@|900702720181773512|@|27.8|@|"test"|@|0|@|1|@|0|@|["930514849_20230901000008_8215446759"]|@|OK|@|{"data":"ok"}|@|1, ]. 

src line [43983450|@|100331|@|2655091|@|"test"|@|2023-09-01 00:00:08|@|0|@|4669900|@|"金果园(拱北店)"|@|900702720181773512|@|1|@|900702720181773512|@|27.8|@|"test"|@|0|@|1|@|0|@|["930514849_20230901000008_8215446759"]|@|OK|@|{"data":"ok"}|@|1]; 

1 Answers

Doris 具体版本辛苦贴下;

这种少量数据导入是没有问题的,但是数据量大的时候就会出现分割不正确的情况。

相关问题已修复,参考PR:https://github.com/apache/doris/pull/34364