tidb集群错误执行了缩容

我说的不会丢 是指数据可以恢复出来(最坏的情况)。由于你的tikv较多,最坏就是强制下线的两个节点刚好有同一副本当中的2-3个

-----最坏就是强制下线的两个节点刚好有同一副本当中的2-3个
这个没怎么懂,集群设置的三个副本,丢了2个节点,不是最多就是损失了2个副本吗,第三个副本肯定是在正常的Up状态的tikv实例里的

血泪教训 TiKV多副本丢失unsafe-recover恢复记录

你这个之前发的,对我应该没什么用吧,他这个情况有些是所有副本全丢了。
如果能正常迁移恢复,慢点也只能慢点等他自己恢复了

所以说是可能。因为他是3个kv。你是多个kv,不一定出现这个情况。

你可以用命令 把store 的状态修改为UP
没测过你这种情况是不是可行
curl -X POST ‘http://pd:port/pd/api/v1/store/5/state?state=Up’

之前版本 一次性缩容2个tikv 调度可能会有问题

调度是有问题,现在没办法了,能不丢数据就很好了。
现在插入失败的都写日志了,后面我们的代码有定时读取日志再插入的

curl -X POST ‘http://pd:port/pd/api/v1/store/5/state?state=Up’ 你要不要试试

算了 我不敢了,如果这样能自己修复就让他修复把 错误已经造成了

后面导致数据库部分不可用
后面没有操作,等待这2个实例中的 region_count 满满减少

报啥错 region is 那个错嘛

代码里报的是timeout,具体的错也不知道哪里能找到

先在region迁移速度非常慢

pd自动的调度包括主要包括2种operator

一种是replace-offline-replica,这个看看日志全部超时了,超时要10分钟,然后看operator show所有的线程全部阻塞住了
就算调大了replica-schedule-limit的值,所有的线程还是都会阻塞住

另一种是replace-down-replica,这个看日志全部finish了,而且耗时只要1-2秒。

看日志2个operator做的事情差不多。
看region check down-peer跟region check offline-peer2个打印很多都是重复的。
我们想确定下这种情况下如果把enable-replace-offline-replica设置为false会不会有影响

大神来帮帮忙啊,能解决问题,我愿意出500块

你的部署display发一下。

能不能加个微信或者qq发 我私聊你

走下认证~
如果你需要获得快速 “加急”处理问题的权限,加快问题响应速度, 点击完成认证,获得“加急”处理问题的权限,方便你更快速地解决问题。
认证后在 导航栏:我的团队-全部主题-加急,直接加急你的问题

enable-replace-offline-replica 先尝试关掉这个。如果还是无法解决。 https://docs.pingcap.com/zh/tidb/v4.0/tikv-control/#强制-region-从多副本失败状态恢复服务 参考这个。

3 个赞

不要随意使用 --force
生产操作,最好一次操作一个实例

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。