apache-doris-2.1.2-x64版本,倒排索引中的分词如何自定义分割符号?

Viewed 26

主要场景为:NLP分析出来的关键词会非常多,且无法预知有哪些词,多个关键词在一个字符串类型的字段中且会以逗号分隔,所以理想效果是能按指定 分隔符号(比如逗号) 简单粗暴进行分词即可
例如: 关键词字符串:"绿水青山,City,广袤原野,蔚蓝海洋,时代楷模" 期望直接以逗号分隔来分词,期望的最终结果为:["绿水青山","City","广袤原野","蔚蓝海洋","时代楷模"]

1 Answers

这块暂时还不支持,有想法的话,可以贡献一个特定的分词器