TIKV 单个副本故障【假如一台物理机器损坏】的修复手段

Jellybean · 2024 年3 月 6 日 02:28

楼主你们的部署机器数、部署拓扑大概是什么样的？

如果你的集群是默认的3副本，在宕机一台后，如果剩余机器节点数是大于等于3台的，可以直接下线这台机器，数据不会丢失。

如果原本是只有3台，挂了1台后只剩2台，此时数据也不会丢失，需要尽快补充新机器，先扩容后再缩容。

residentevil · 2024 年3 月 6 日 02:48

从上面大神给的文档，感觉跟我要的内容还有些差异

residentevil · 2024 年3 月 6 日 02:55

内容与我这边3副本的场景有些差异，哈哈

residentevil · 2024 年3 月 6 日 02:57

这里有些检查项可以在写下么？特别是【TIKV故障实例】挂的实例的状态从UP–>XXX，辛苦大神帮忙整理个比较标准的SOP操作呗，跪谢

residentevil · 2024 年3 月 6 日 02:59

TIDB三个模块的故障处理，现在你们的系统都是需要人肉支持么？还是有自动化平台来支持，例如挂了某个实例自动补上去等等

像风一样的男子 · 2024 年3 月 6 日 03:00

之前写过一个类似的你看看，我这个是服务器磁盘出问题了，上面有pd tidb 和kv节点，原地格式化重装

changpeng75 · 2024 年3 月 6 日 03:18

最好自动化监控与告警，但是故障处理还是人工来做，否则出现抖动可能会加重故障。

residentevil · 2024 年3 月 6 日 03:27

我看下这个WIKI，这块确实经验不足，担心踩的坑太多，哈哈

Billmay表妹 · 2024 年3 月 6 日 03:35

这里有些案例合集~

residentevil · 2024 年3 月 6 日 03:40

这个文档看过了，场景还不一样，哈哈

residentevil · 2024 年3 月 6 日 04:42

这个文档看过了，看来TIKV组件这块的操作更复杂些，毕竟是有状态的【up, offline, tombstone】，只有确保故障节点上的store状态都是tombstone后才能干掉，如果遇到store为offlne状态，只能通过调整physically_destroyed=true来修复store的状态？

像风一样的男子 · 2024 年3 月 6 日 05:13

具体问题具体分析，可以看下大佬写的文章，加深理解，社区有很多优秀的经验贴

residentevil · 2024 年3 月 6 日 05:26

辛苦大神提供的资料，对我帮助非常大

Soysauce520 · 2024 年3 月 6 日 06:21

先扩容，再缩容

system · 2024 年5 月 5 日 06:21

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。