tikv-client 运行时报错 peer is not leader for region 9701, leader may None

【 TiDB 使用环境】生产环境

【 TiDB 版本】
v6.1.0
【复现路径】做过哪些操作出现的问题
原有 10.29.0.158:20160、10.29.0.20:20160 、10.29.0.21:20160三个节点,后来因为 10.29.0.20 的磁盘需要更换,就把集群的 max-replicas 设置为了 2

tiup ctl:v6.1.0 pd -i -u http://10.29.0.20:2379
config set max-replicas 2
tiup cluster scale-in  cluster_name --node 10.29.0.20:20160
tiup cluster scale-in  cluster_name --node 10.29.0.20:2379
tiup cluster scale-in  cluster_name --node 10.29.0.20:9093
tiup cluster scale-in  cluster_name --node 10.29.0.20:3000
tiup cluster scale-in  cluster_name --node 10.29.0.20:9090
过了 2 分钟,机器磁盘更换为之后

就把这些进程又加回来了
tiup cluster scale-out  cluster_name --node 10.29.0.20:20160
tiup cluster scale-out   cluster_name --node 10.29.0.20:2379
tiup cluster scale-out   cluster_name --node 10.29.0.20:9093
tiup cluster scale-out   cluster_name --node 10.29.0.20:3000
tiup cluster scale-out   cluster_name --node 10.29.0.20:9090
tiup ctl:v6.1.0 pd -i -u http://10.29.0.20:2379
config set max-replicas 3
副本改为了 3

但是不管我怎么操作 10.29.0.20:20160 ,一直都是 offline, scale-in -force 也还是报错。
于是加了一个实例 10.29.0.20:20161 来组成三副本。

期间把三个 10.29.0.20:2379、10.29.0.21:2379、10.29.0.158:2379 都 scale-in 和 scale-out 一遍,但是还不行。

后来参考到有网友说需要重启 tikv,但是我命令重启,也失败了
 tiup cluster reload cluster_name  --node 10.29.0.158:20160
tiup cluster reload cluster_name  --node 10.29.0.21:20160

reload cluster_name --node 10.29.0.158:20160 错误


详细 debug 日志

查看 10.29.0.21:20160 进程情况,发现它的 pd 还是非常旧的,和这个有关吗
ps -ef | grep tikv-server
--pd 10.29.0.19:2379,10.29.0.158:2379 

接下来我要怎么办呢

【遇到的问题:问题现象及影响】
tikv-rust 客户端错误

10.29.0.21:20160 进程报错日志

10.29.0.20:20160 进程报错日志

【资源配置】
【附件:截图/日志/监控】

1 个赞

在tikv服务器上手动重启服务可以启动吗

@Fly-bird
怎么手动重启 tikv-server 呢,我没有看到这方面的文档,重启需要注意什么呢

缩容过程操作有误,scale-in后要等region迁移变成tombstone后才行,处理方法可参考:

下线时TIKV最终状态时啥?是不没下线不完全导致的?

应该是没有下线完全,状态好像是 Pending Offline
应该是 tikv-server 下线不完全导致的,怎么解呢 @TiDBer_小阿飞

处理方法上面链接里不是有吗

噢噢,我之前看到文档是说需要重启 tikv-server。 @像风一样的男子

你还不是kv有问题么 和pd有什么关系

谢谢大佬,根据操作文档弄了,但是还有问题。求指导
region 也迁移结束了,pd中老 store 没有消失。求指导 @像风一样的男子

display 查看集群状态,也是 Offline

你这操作问题很大啊,顺序也不对。现在首先强制缩掉这个down掉节点试试

tiup cluster scale-in xx --node xx:20160 --force

force 删除,会清除掉 Information_schema 中的信息吗 @像风一样的男子

tiup ctl:v6.1.0 pd -u http://ip:2379 region store 4979 > cw.log 我使用这个命令看还有 100 个 region

看上图,却是没有 region 了

那就等region变成0 看store状态是不是变成Tombstone
然后tiup cluster prune xxx 清理这个kv

从 store 命令看,region 已经变成 0 了,且前天就变成 0 了

这个时候最好是扩容一个kv节点

你看那个专栏里的操作。

已经扩容了一个节点,除了这个 offline ,还有三个 up节点

region_id找出来后 试试添加手动调度从这store删除,前面链接文章有

最后使用 unsafe remove-failed-stores 4979 ,把问题解决了

谢谢 @h5n1 @像风一样的男子 两位大佬 :pray: