存算分离,数据缓存策略,答疑

Viewed 74

https://doris.apache.org/zh-CN/docs/3.0/compute-storage-decoupled/file-cache

问题一:数据缓存,这里案例只给了ttl的。如果表不设置file_cache属性,lru策略是自动开启缓存吗?
问题二:file_cache_path 配置了多个路径,是按什么方式使用这么目录的,是用满一个目录之后用另一个目录?
比方说,ssd的目录先在前,hdd的目录在后,那是先用ssd盘?

问题三:如果我A表(小数据量),想要ttl策略,B表(大数据量)想要的lru策略。
A表是一些汇总数据,B表是明细数据。
想要的效果:
分为a计算组和b计算组。
a计算组会被设置成只能访问A表,b计算组只能访问B表。
这时候b计算组不会查A表,那么TTL队列的空间是不是会给其他队列用,如Disposable?

问题四:
两个计算组的be的file_cache_path可以配置成不一样吗?比方说a计算组是ssd+hdd做cache,b计算组只用hdd做cache

1 Answers
  1. 没有特殊情况不需要设置ttl. 不设置就是走的LRU策略
  2. 按照hash的方式选择, 每个目录使用量是均匀的, 没有先后顺序. file cache 没有关注用户配置的目录是在什么介质的
  3. B计算组里的cache TTL 的空间是会被其他 队列占用, 就是说 实际上是按需分配的, 不是预分配的.
  4. 可以设置成不一样, 但是出于运维方便的角度 不推荐这么做. 另外 HDD 作为缓存 性能是比较差的, 特别是在有淘汰的情况发生时, HDD的IOPS 吞吐是不够用的.