背景:1520万行的 paimon 事实表,lookup-join doris 维表(183条数据),打宽之后写入 paimon 另一张表。
问题:整体 ETL 吞吐量较低,大约 1122条/秒。
期望:整体吞吐量能达到大于或等 1万/秒。
原因:发现 1520万 的源数据中,超过 80% 的数据不能命中 doris 维表,即使开了 doris lookup 缓存也无效果。
其它试验:
1、当大量或全量源数据 cache-hit doris 维表时,吞吐量能达到 4万条/秒。
2、把 doris 维表导入 paimon 中,由 paimon 事实表 lookup-join paimon 维表,则吞吐量能稳定在 3万条/秒 上下。