Regions are not fully healthy: 1 pending-peer

spc_monkey · 2022 年3 月 4 日 06:09

设置为 tombstone 后，还有 pending peer 和 down peer，现在 pd-ctl store 4 的状态是啥？

kuweilong666 · 2022 年3 月 4 日 06:15

store4已经查不到了，但是region里面还有

kuweilong666 · 2022 年3 月 4 日 06:24

remove-peer有没有这样的接口操作，这样的接口好像比ctl好用

spc_monkey · 2022 年3 月 4 日 06:31

看pd API 有没有类似的（官网直接搜API关键字即可），记得有 region 相关的命令（但肯定不如 ctl 多），你的问题是：v4 版本，不能在线修改 tikv 的 log-level 参数，导致没法看日志定位你 add-peer 或 remove-peer 失败的原因

spc_monkey · 2022 年3 月 4 日 06:37

另外：看看你的你的 leader 分布为啥只用了 2个 store（3副本 3个 tikv，正常 3个 store 上的 leader 会分布均匀的，为啥你的其中一个 store 的 leader 机会没有，怀疑有 evict leader scheduler ，建议你用 pd-ctl 看看 scheduler show 和 op show 命令的结果，也看看 store 169217 的 tikv 日志：grep evict tikv.log）

kuweilong666 · 2022 年3 月 4 日 06:42

kuweilong666 · 2022 年3 月 4 日 06:51

是不是把这条信息删掉就可以了？

spc_monkey · 2022 年3 月 4 日 07:00

不是，这个只是系统表，你这个 peer 怎么删除，我得问问去（上面的 scheduler ，你可以看看去掉这个调度：scheduler 命令）
另外：你能梳理一下：你的扩缩容操作吗？是先扩容的还是缩容，分别是扩容的谁，缩容的是store4）

kuweilong666 · 2022 年3 月 4 日 07:20

扩缩容是很早之前的同事弄的，不知道操作步骤了
现在3个tikv日志里面都报错
store=169217

store=55179137

store=1

pd

spc_monkey · 2022 年3 月 4 日 07:38

先检查 169217 为啥会发送心跳失败吧，看看网络，状态？

spc_monkey · 2022 年3 月 4 日 07:38

话说你这是什么集群

kuweilong666 · 2022 年3 月 4 日 07:40

什么意思？是否可以开启这个参数

spc_monkey · 2022 年3 月 4 日 07:43

先别说别的，信息有点乱，你上面几个截图，分别要看不同的信息…

kuweilong666 · 2022 年3 月 4 日 07:53

那先不管日志，pending-peer-region这个怎么才能解决？其实就是一个问题，store 4 现在是没有了，region里面还有一个有问题

h5n1 · 2022 年3 月 4 日 07:57

大佬他这能unsafe recover不

spc_monkey · 2022 年3 月 4 日 08:01

我不是大佬，是大佬就解决问题了，我得问问别人，unsafe recover 是ok 的，就一个 region，想看看其他方法：或者可以使用 tikv-ctl tombstone 命令：和 unsafe recover 差不多：https://docs.pingcap.com/zh/tidb/stable/tikv-control#设置一个-region-副本为-tombstone-状态

kuweilong666 · 2022 年3 月 4 日 08:24

tikvctl tombstone 只能本地模式吗？怎么使用的？在tikv机器上？在中控机上tiup怎么用？

spc_monkey · 2022 年3 月 4 日 08:34

上面的链接中，有使用方式是说明，不过你应该不着急吧，建议先等我问问我们研发同学，看看你这个情况怎么处理比较好（建议升级，你的 store 4 downpeer 和 pendingpeer 的问题，高版本是没这个问题的：v5.x 以上）

kuweilong666 · 2022 年3 月 4 日 08:37

我现在就是想把v4.0.0升级成v5.2.3，升级校验通不过，文档上说要先解决这个问题才能开始升级，万一生产tidb出问题就完了

spc_monkey · 2022 年3 月 4 日 09:31

不着急的话，建议先等等，着急的话，想了一下，unsafe recover的操作和 tombstone 的操作过程，几乎一样，都需要停集群