【增加catalog功能】能不能数据在元数据系统处理完成结果再返回到doris系统

Viewed 67

1.目前获取元数据都是直接获取整表数据到返回到doris进行数据加工这个导致两个问题
(1)因为数据表的设计原因导致获取数据的时候必须join才能获取表调整的时间,在关联表再进行同步的现有情况下需要或者整个表的数据再进行数据筛选会使得时间很长
(2)一些字段类型在doris是不支持的,所以在同步的过程中会导致筛选条件是不支持的字段类型也无法使用
2.希望数据再元数据系统处理完返回到doris对数据进行数据的二次筛选处理再进行后续操作。

3 Answers

根据你提供的 SQL,目前在 Doris 中,如果参与查询的两个表都是外表,无论是使用 join 还是子查询的方式,系统都不支持 runtime filter 下推到外表。因此,无法实现“小表先执行,结果用来裁剪大表”的优化逻辑,查询会退化为对大表的全量扫描,影响性能。

对于此类场景,推荐使用 Query Table Value Function,通过透传整个查询到数据源,Doris 直接获取结果https://doris.apache.org/zh-CN/docs/lakehouse/database/jdbc#%E9%80%8F%E4%BC%A0%E6%9F%A5%E8%AF%A2

你指的是哪种catalog?

能否发下 Doris 和 DataX 分别是怎么使用的例子,比如Doris 的 SQL 以及 profile 和 DataX 的配置文件等