有一台物理机down机超过1天了,启动不了了,这台机器上有四个tikv节点,我该如何处理

【 TiDB 使用环境】生产环境
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】


image

物理机修好后能拉起来就拉起来,如果机器都没了就缩容掉吧

1 个赞

这么多kv节点,缩容这4个应该没啥问题,挨个缩容就好

1 个赞

第一反应是做label没 当前不影响业务的话逐个下线缩容;

1 个赞

如果打过标签直接吧这4个kv缩掉就好了。

1 个赞

打标签了啊,只能强制缩容试试?

打标签了啊,只能强制缩容试试?

服务器修复完毕,起来了

打label的话,集群不会影响使用,而且会逐渐在其他节点开始补充副本,可以直接通过tiup下线试试 专栏 - TiKV缩容下线异常处理的三板斧 | TiDB 社区

image
我这个打的是机柜级别的标签,是不是机柜有问题都不影响啊

机柜足够的话,会这样,不够的话可能只能从host级别来做隔离。。。

4个机柜,是不是就可以了
pd也配置了 ,如下:
replication.location-labels: [“rack”, “host”]
replication.isolation-level: “rack”

嗯如果pd的max-replica是3也就是副本数是3的话,4个机柜,坏一个也不影响。

物理机恢复就自动好了吗? 需要做什么手动操作吗?

完美状态下,设置自启enable的话,能够自动启来,这几个kv,能够慢慢平衡region。 如果没有设置自启,手动start。

人工不需要干预,节点会自动先清理数据,然后自动重新同步数据

感谢感谢

起来了就好,告诉一下大家怎么修复的,大家学习一下

不需要干预,一台机器没必要干预,tidb内部自己修复完毕,启动机器,确保服务启动正常就行,其他不需要干预

我的存储分布如下