TIKV 单个副本故障【假如一台物理机器损坏】的修复手段

楼主你们的部署机器数、部署拓扑大概是什么样的?

如果你的集群是默认的3副本,在宕机一台后,如果剩余机器节点数是大于等于3台的,可以直接下线这台机器,数据不会丢失。

如果原本是只有3台,挂了1台后只剩2台,此时数据也不会丢失,需要尽快补充新机器,先扩容后再缩容。

从上面大神给的文档,感觉跟我要的内容还有些差异 :sweat_smile:

内容与我这边3副本的场景有些差异,哈哈

这里有些检查项可以在写下么? 特别是【TIKV故障实例】挂的实例的状态从UP–>XXX,辛苦大神帮忙整理个比较标准的SOP操作呗,跪谢 :grinning:

TIDB三个模块的故障处理,现在你们的系统都是需要人肉支持么? 还是有自动化平台来支持,例如挂了某个实例自动补上去等等

之前写过一个类似的你看看,我这个是服务器磁盘出问题了,上面有pd tidb 和kv节点,原地格式化重装

最好自动化监控与告警,但是故障处理还是人工来做,否则出现抖动可能会加重故障。

我看下这个WIKI,这块确实经验不足,担心踩的坑太多,哈哈

这里有些案例合集~

这个文档看过了,场景还不一样,哈哈

这个文档看过了,看来TIKV组件这块的操作更复杂些,毕竟是有状态的【up, offline, tombstone】,只有确保故障节点上的store状态都是tombstone后才能干掉,如果遇到store为offlne状态,只能通过调整physically_destroyed=true来修复store的状态?

具体问题具体分析,可以看下大佬写的文章,加深理解,社区有很多优秀的经验贴

辛苦大神提供的资料,对我帮助非常大 :+1:

先扩容,再缩容

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。