selectdb-doris-2.0.7,机械替换固态出现问题

Viewed 50

doris版本: selectdb-doris-2.0.7-d6a9d064e2
问题描述: 根据业务需求将集群be机械全换成固态. 通过停服拷贝原盘数据到固态的方式替换. 替换后发现insert into select变得很慢(慢2倍以上), 由于这一insert行为会导致整个集群负载变高, 查询变慢(时快时慢).由于时间紧张, 将表重建后刷新数据后drop, 缓解了这一情况, 遂将所有大表都重建刷新了一次数据.
而后检查发现backends的tablets远高于backents显示的tablets;
经群友指导, 怀疑是并发高导致的, 关闭了pipeline. 依然会出现这类异常情况.

show proc '/cluster_health/tablet_health';

DbId DbName TabletNum HealthyNum
Total 13 28348 28348

show backends;

Host HeartbeatPort BePort HttpPort BrpcPort Alive SystemDecommissioned TabletNum DataUsedCapacity TrashUsedCapcacity AvailCapacity TotalCapacity UsedPct MaxDiskUsedPct RemoteUsedCapacity Tag ErrMsg Version HeartbeatFailureCounter NodeRole
be1 9050 9060 8040 8060 true false 86415 299.892 GB 1.324 GB 8.258 TB 9.024 TB 8.49 % 10.46 % 0.000 {"location" : "default"} selectdb-doris-2.0.7-d6a9d064e2 0 mix
be2 9050 9060 8040 8060 true false 89029 301.224 GB 1.236 GB 8.266 TB 9.024 TB 8.40 % 8.74 % 0.000 {"location" : "default"} selectdb-doris-2.0.7-d6a9d064e2 0 mix
be3 9050 9060 8040 8060 true false 80729 225.246 GB 1.813 GB 8.340 TB 9.024 TB 7.58 % 8.96 % 0.000 {"location" : "default"} selectdb-doris-2.0.7-d6a9d064e2 0 mix
be4 9050 9060 8040 8060 true false 88931 299.603 GB 1.260 GB 8.268 TB 9.024 TB 8.38 % 9.15 % 0.000 {"location" : "default"} selectdb-doris-2.0.7-d6a9d064e2 0 mix
be5 9050 9060 8040 8060 true false 89959 302.164 GB 1.263 GB 8.265 TB 9.024 TB 8.41 % 8.51 % 0.000 {"location" : "default"} selectdb-doris-2.0.7-d6a9d064e2 0 mix

想请问这一问题后续如何解决.

2 Answers

有很多tablet 应该是还没有过期,通过这种方式查看回收站中的元数据信息:SHOW-CATALOG-RECYCLE-BIN

同时可以配置fe.conf 中 catalog_trash_expire_second = 0 缩短tablet的最大保留时间。

如果trash 中数据表多会造成磁盘不均衡,可以执行admin clean trash 进行清理。

【问题状态】跟进中
【问题处理】定位中,有进展会更新到论坛