【已解决】FE容灾恢复

Viewed 54

在测试Doris的容灾能力,想问下各位大佬:
3FE(1master 2follower),master和一个follower所在的服务器同时挂掉,且短时间不可恢复的场景下,能否通过剩余存活的follower恢复服务正常呢?
网上看了一些帖子没有找到相关的答案,还希望各位大佬赐教,我使用的是2.1版本

###########################################fe.log#######################
image.png

2 Answers

1 master 和 1follower同事挂掉后,不满足多数协议,所以最后一台也会挂掉,这种情况属于极端情况了,可能需要使用极端的做法,比如通过 meta recovery的方式启动这台FE,此时,这台FE的角色会变成master,FE能正常启动,也能正常查询,但是可能会导致一些表的数据丢失,所以这种属于极端做法了,需要评估丢失数据所承受的风险。

所以需要慎重使用meta recovery,以免带来数据丢失,造成不可挽回的局面。遇到这种情况,可以首先联系社区维护同学。

  1. 将剩下的一个 follower 以元数据恢复模式启动(谨慎使用);
  2. 连上fe,将集群中的其他fe下线,等服务器恢复正常后再将其他fe加进来;
  3. 停止fe再正常启动,剩下的这个fe会成为新的master节点提供服务