【用户案例】从 ClickHouse 到 Apache Doris:快成物流的数智化货运应用实践

Viewed 94

随着快成物流的大宗商品产业链的不断发展,货运轨迹规划和实时数据分析的需求日益迫切,为了保障数据报表更新、用户画像圈选与物流轨迹实时更新等大数据核心系统性能,快成物流引入 Apache Doris 实时数仓升级了大数据算法平台,目前已经部署在 2 套生产集群,存储数据总量达百亿规模,覆盖实时数仓、BI 多维分析、用户画像、货运轨迹信息系统等业务场景。

欢迎点击文章查看详情:
从 ClickHouse 到 Apache Doris:快成物流的数智化货运应用实践

1 Answers

原文节选:

截至目前,基于 Apache Doris 的大数据算法平台已经接入了近 10 个物流大数据业务线,部署生产集群 2 套,存储数据总量达百亿级规模,覆盖实时数仓、BI 多维分析、用户画像、货运轨迹信息系统等业务场景,查询效率大幅提升,其简洁的开发架构与经济的资源存储方案,为业务与开发人员带来极大便利与效益增长。

在业务实践环节,我们也记录了许多生产环境下基于 Doris 的开发经验,在此与诸位分享:

  1. MPP 数据库在 OLAP 场景虽然兼容 MySQL 协议,但是不建议当作 MySQL 使用,更适用于大批量的数据写入,而非高并发的单条数据写入;
  2. 构建轻量级数仓时,部分场景可以替代 Hive 数仓,尤其是中小规模的数据量并且相对简单的场景;
  3. GIS 物联网的场景下使用,可以支持存储 PB 数据级别;
  4. 分区表支持原子替换,支持对两个表进行原子的替换操作,不会中断表提供服务;

后续我们将持续深入使用 Apache Doris 的新版功能,并重点关注扩展以下方面:

  • 引入异步物化视图:Apache Doris 在 2.1 版本推出了基于多表的异步物化视图,支持透明改写加速、自动刷新、外表到内表的物化视图以及物化视图直查,此外,还可以用于数据仓库分层建模、作业调度和数据加工等场景。

  • 数据一体能力扩展:此前我们曾向社区提议增强数据集成能力,例如通过 JDBC Catalog 从 MySQL 直接同步数据至 Doris,意见已被社区采纳并改进完成,后续也期待更多的新功能。

  • 增强 GIS 地理信息系统功能:如经纬度距离实时刷新、区域范围搜索提速;

  • 期待整合 AI算法库:增加例如 Spark ML 类的机器学习算法库,整合特征平台与向量数据库。