tikv同时down2台服务器,挂掉的tikv节点无法启动,又有2台服务器即将怪掉如何修复

各位老师,求助tikv一共21各节点因为磁盘故障突然2个tikv节点挂掉了,服务器无法启动。 部分数据丢失无法访问,然后现在又出现了2台服务器即将down机告警。
根据王老师和李老师的建议,先把即将宕机的两台机器权重设置为0,降低leader和region副本数,同时扩容4台服务器。目前经过了有18小时,即将宕机的2台服务器leader降低了,但是region_count几乎没减少,
权重设置为0的tikv日志,说找不到副本leader,这个情况是卡主了无法降低region转移到其他服务器还是什么情况


第二个,第三天又出现一个即将宕机的服务器告警。已经吧权重设置为0了,但是region_count没有降低

看看之前大佬写的专栏

问下有个tikv-ctl命令,这个是单独安装的吗?

tiup ctl:v<CLUSTER_VERSION> tikv
tiup工具集成了,也可以单独下载
下载地址

./tikv-ctl --db /server/tidb/data/db unsafe-recover remove-fail-stores -s 1,6 --all-regions
可以改成:tiup ctl:v4.0.2 pd -u http://192.168.3.80:2379 tikv --db /server/tidb/data/db unsafe-recover remove-fail-stores -s 1,6 --all-regions
是这个意思吗?

是这样的,你可以到安装目录直接./ctl执行命令

是直接进入ctl界面这里?
image

对的,这里敲命令

那就是说,所有tikv都要安装一下ctl工具使用tiup ctl:v4.0.2 pd -i -u http://192.168.3.80:2379命令进去命令行,然后所有tikv都要执行 remove-fail-stores - 这个命令是吗

目前已经执行了驱逐即将挂掉的2台服务器leader


leader已经降低到1000左右 已经半个小时没有继续降低了

执行扩容的时候,提示需要启动已经down机的两个服务器,扩容失败。但是这个机器目前是肯定无法起来的。这个怎么绕过去

tikv-ctl 命令不用独立安装的,kv是你安装好集成在里面的,要配置好环境或者是直接调用即可

你这个只能进行有损恢复了。。。
专栏 - TiDB损坏多副本之有损恢复处理方法 | TiDB 社区

好的我看下,谢谢

检查是否有多副本丢失,多副本丢失就只能尝试有损恢复了

使用手工调度region命令,强制把坏节点region迁移走

operator add transfer-region 1 2 3 4 

把只有一个单副本的peer 移走?我已经设置权重为0了。leader已经是降低了。但是region没变化。之前他会一直降低的。
你这个是吧快要坏的节点的region强制移走?