Regions are not fully healthy: 1 pending-peer

设置为 tombstone 后,还有 pending peer 和 down peer,现在 pd-ctl store 4 的状态是 啥?


store4已经查不到了,但是region里面还有

remove-peer有没有这样的接口操作,这样的接口好像比ctl好用

看pd API 有没有类似的(官网直接搜API关键字即可),记得有 region 相关的命令(但肯定不如 ctl 多),你的问题是:v4 版本,不能在线修改 tikv 的 log-level 参数,导致没法看日志定位你 add-peer 或 remove-peer 失败的原因

另外:看看你的 你的 leader 分布为啥只用了 2个 store(3副本 3个 tikv,正常 3个 store 上的 leader 会分布均匀的,为啥你的其中一个 store 的 leader 机会没有,怀疑有 evict leader scheduler ,建议你用 pd-ctl 看看 scheduler show 和 op show 命令的结果,也看看 store 169217 的 tikv 日志:grep evict tikv.log)


是不是把这条信息删掉就可以了?

不是,这个只是系统表,你这个 peer 怎么删除,我得问问去(上面的 scheduler ,你可以看看去掉这个 调度:scheduler 命令)
另外:你能梳理一下:你的 扩缩容操作吗?是先扩容的 还是缩容 ,分别是扩容的谁,缩容的是store4)

扩缩容是很早之前的同事弄的,不知道操作步骤了
现在3个tikv日志里面都报错
store=169217

store=55179137

store=1

pd

先检查 169217 为啥 会发送心跳失败吧,看看网络,状态?

话说你这是什么集群

什么意思?是否可以开启这个参数

先别说别的,信息有点乱,你上面几个截图,分别要看不同的信息…

那先不管日志,pending-peer-region这个怎么才能解决?其实就是一个问题,store 4 现在是没有了 ,region里面还有一个有问题

大佬他这能unsafe recover不

:rofl:我不是大佬,是大佬就解决问题了,我得问问别人,unsafe recover 是ok 的,就一个 region,想看看其他方法: 或者可以使用 tikv-ctl tombstone 命令:和 unsafe recover 差不多:https://docs.pingcap.com/zh/tidb/stable/tikv-control#设置一个-region-副本为-tombstone-状态

1 个赞

tikvctl tombstone 只能本地模式吗?怎么使用的?在tikv机器上?在中控机上tiup怎么用?

上面的链接中,有使用方式是说明,不过你应该不着急吧,建议先等我问问我们研发同学,看看你这个情况怎么处理比较好(建议升级,你的 store 4 downpeer 和 pendingpeer 的问题,高版本是没这个问题的:v5.x 以上)

我现在就是想把v4.0.0升级成v5.2.3,升级校验通不过,文档上说要先解决这个问题才能开始升级,万一生产tidb出问题就完了

不着急的话,建议先等等,着急的话,想了一下,unsafe recover的操作 和 tombstone 的操作过程,几乎一样,都需要停集群