【已解决】关于生产环境资源评估问题

Viewed 131

请教个问题,假如知道doris预估存储的数据量,根据数据量评估doris所需要的资源,应该怎么去评估呢?有没有什么好方法?

比如数据要总共存储半年需要20TB空间,

  • FE资源评估,3节点8C32G内存500GSSD磁盘(FE500G磁盘是否够用?官网看着FE应该是不需要存储大量数据)
  • BE资源评估:
    • 3节点每个节点需要的磁盘空间,不考虑冗余 20 / 3 * 0.5 * 3 = 10TB。 (共20TB / 节点数 * 压缩比 * 副本数 = 每个节点所需空间)
    • 但是根据上述节点数据量我应该如何去评估CPU和内存的资源?
1 Answers

集群规模评估没有通用的压测数据指标。

可以先参考1C : 4G Mem,1C : 50G 数据的常规模式来估算;例如 20T(密集型热数据/非全量数据) * 1024 = 20480G / 50 ≈ 409C,目前这个规模的计算存储节点预估 64C * 6 = 384C;硬盘建议最好是SSD的,be属于计算密集型的组件,iops要求较高。

实际的集群规模,与业务相关度特别高,比如是日志类数据,是一些报表数据之类的,还是查询是多表关联居多,还是单表的?这个对于扫描量而言差距都较大;又比如假设数据是按天级存储的,虽然有一个T,但可能是存了一年的,那每天可能就3个G,其实如果按天去查询的话,扫描量就很小。所以,需要根据业务数据进行压测评估,通常和场景并发及数据需求计算复杂度有关。