tikv-client 运行时报错 peer is not leader for region 9701, leader may None

Doslin · 2023 年10 月 12 日 13:06

【 TiDB 使用环境】生产环境

【 TiDB 版本】
v6.1.0
【复现路径】做过哪些操作出现的问题
原有 10.29.0.158:20160、10.29.0.20:20160 、10.29.0.21:20160三个节点，后来因为 10.29.0.20 的磁盘需要更换，就把集群的 max-replicas 设置为了 2

tiup ctl:v6.1.0 pd -i -u http://10.29.0.20:2379
config set max-replicas 2
tiup cluster scale-in  cluster_name --node 10.29.0.20:20160
tiup cluster scale-in  cluster_name --node 10.29.0.20:2379
tiup cluster scale-in  cluster_name --node 10.29.0.20:9093
tiup cluster scale-in  cluster_name --node 10.29.0.20:3000
tiup cluster scale-in  cluster_name --node 10.29.0.20:9090
过了 2 分钟，机器磁盘更换为之后

就把这些进程又加回来了
tiup cluster scale-out  cluster_name --node 10.29.0.20:20160
tiup cluster scale-out   cluster_name --node 10.29.0.20:2379
tiup cluster scale-out   cluster_name --node 10.29.0.20:9093
tiup cluster scale-out   cluster_name --node 10.29.0.20:3000
tiup cluster scale-out   cluster_name --node 10.29.0.20:9090
tiup ctl:v6.1.0 pd -i -u http://10.29.0.20:2379
config set max-replicas 3
副本改为了 3

但是不管我怎么操作 10.29.0.20:20160 ，一直都是 offline, scale-in -force 也还是报错。
于是加了一个实例 10.29.0.20:20161 来组成三副本。

期间把三个 10.29.0.20:2379、10.29.0.21:2379、10.29.0.158:2379 都 scale-in 和 scale-out 一遍，但是还不行。

后来参考到有网友说需要重启 tikv，但是我命令重启，也失败了
 tiup cluster reload cluster_name  --node 10.29.0.158:20160
tiup cluster reload cluster_name  --node 10.29.0.21:20160

reload cluster_name --node 10.29.0.158:20160 错误

详细 debug 日志

查看 10.29.0.21:20160 进程情况，发现它的 pd 还是非常旧的，和这个有关吗
ps -ef | grep tikv-server
--pd 10.29.0.19:2379,10.29.0.158:2379

接下来我要怎么办呢

【遇到的问题：问题现象及影响】
tikv-rust 客户端错误

10.29.0.21:20160 进程报错日志

10.29.0.20:20160 进程报错日志

【资源配置】
【附件：截图/日志/监控】

Fly-bird · 2023 年10 月 13 日 00:22

在tikv服务器上手动重启服务可以启动吗

Doslin · 2023 年10 月 13 日 01:40

@Fly-bird
怎么手动重启 tikv-server 呢，我没有看到这方面的文档，重启需要注意什么呢

h5n1 · 2023 年10 月 13 日 01:55

缩容过程操作有误，scale-in后要等region迁移变成tombstone后才行，处理方法可参考：

TiDBer_小阿飞 · 2023 年10 月 13 日 03:00

下线时TIKV最终状态时啥？是不没下线不完全导致的？

Doslin · 2023 年10 月 13 日 05:19

应该是没有下线完全，状态好像是 Pending Offline
应该是 tikv-server 下线不完全导致的，怎么解呢 @TiDBer_小阿飞

像风一样的男子 · 2023 年10 月 13 日 05:23

处理方法上面链接里不是有吗

Doslin · 2023 年10 月 13 日 05:58

噢噢，我之前看到文档是说需要重启 tikv-server。 @像风一样的男子

像风一样的男子 · 2023 年10 月 13 日 06:00

你还不是kv有问题么和pd有什么关系

Doslin · 2023 年10 月 13 日 10:41

谢谢大佬，根据操作文档弄了，但是还有问题。求指导
region 也迁移结束了，pd中老 store 没有消失。求指导 @像风一样的男子

display 查看集群状态，也是 Offline

像风一样的男子 · 2023 年10 月 14 日 01:06

你这操作问题很大啊，顺序也不对。现在首先强制缩掉这个down掉节点试试

tiup cluster scale-in xx --node xx:20160 --force

Doslin · 2023 年10 月 14 日 02:24

force 删除，会清除掉 Information_schema 中的信息吗 @像风一样的男子

tiup ctl:v6.1.0 pd -u http://ip:2379 region store 4979 > cw.log 我使用这个命令看还有 100 个 region

看上图，却是没有 region 了

像风一样的男子 · 2023 年10 月 14 日 02:26

那就等region变成0 看store状态是不是变成Tombstone
然后tiup cluster prune xxx 清理这个kv

Doslin · 2023 年10 月 14 日 02:28

从 store 命令看，region 已经变成 0 了，且前天就变成 0 了

像风一样的男子 · 2023 年10 月 14 日 02:28

这个时候最好是扩容一个kv节点

像风一样的男子 · 2023 年10 月 14 日 02:29

你看那个专栏里的操作。

Doslin · 2023 年10 月 14 日 02:29

已经扩容了一个节点，除了这个 offline ,还有三个 up节点

h5n1 · 2023 年10 月 14 日 04:58

region_id找出来后试试添加手动调度从这store删除，前面链接文章有

Doslin · 2023 年10 月 14 日 08:45

最后使用 unsafe remove-failed-stores 4979 ，把问题解决了

Doslin · 2023 年10 月 14 日 08:47

谢谢 @h5n1 @像风一样的男子两位大佬