【已记录】跨zone搭建集群异常咨询

Viewed 75

我在同一个机房中有10台机器,zoneA有5台,zoneB有5台。zoneA与zoneB的网络延迟约0.5ms。
我希望在这是台机器中搭建一套doris集群,架构如下图
image.png
但是频发这个异常,集群几乎不可用

ERROR 1105 (HY000): RpcException, msg: timeout when waiting for send fragments rpc, query timeout:900, left timeout for this operation:30, host: xxx.xxx.xxx.xxx

这个错误像是两个集群之间的网络延迟导致的,我尝试将不同zone的be设置不同的tag,分为group_a和group_b,然后让用户只拥有其中一个tag的权限,调整后架构图如下图所示
image.png
但是问题还是没有解决,请问这个异常的原因是什么呢?

目前尝试过搭建两个集群用CCR同步数据,但是遇到了2个严重问题没有解决
1、将目标端集群所有磁盘打满(目标集群磁盘130T远大于当前数据量4T,目标集群单块磁盘1.8T),这个问题出现2次
2、其中一个数据库创建整库同步任务后目标集群一直重复restore,结束之后立即又开始下一次restore,label和timestamp都是一样的

这种场景下有没有更好的解决办法呢?

1 Answers

问题1偶现,问题2必现,目前已经沟通上,正在分析ccr日志,结果后续会同步


5 月 6 日状态更新:
rpc超时的问题,增大超时时间后已解决