pd-ctl store 显示 down 状态 tikv,导致 br 备份失败

操作背景:
1、tiup缩容了两个节点,经历一段时间region平衡后,kv节点下线成功。
2、tiup display和granfa监控均无此二节点。
版本信息:V4.0.2
发现问题:执行BR备份报错提示某已下线KV节点timeout
error="rpc error: code = Unavailable desc = connection error: desc = \"transport: Error while dialing dial tcp x.x.x.62:20160: i/o timeout
检查集群状态:
1、tiup cluster display tidb-test  未见此已下线节点  x.x.x.62
2、tiup ctl pd -u http://x.x.x.133:2379 store   发现当前store数为4个,为正常3个store + 已下线的62节点

pd-ctl信息

QQ%E6%88%AA%E5%9B%BE20200722150103

tiup display集群信息

QQ%E6%88%AA%E5%9B%BE20200722144337

  1. 请问 tiup 版本是什么,可以使用 tiup --verision 来确认
  2. 62 之前也是使用的 scale-in 的方式吗?还是有使用 --force, 当时有报错吗?
  3. 如果当前业务没问题, 62 能否尝试再次下线,或者使用 pd-ctl 删除 store ,这样 BR 应该就可以备份了
tiup -v
v1.0.8 tiup
Go Version: go1.13
Git Branch: master
GitHash: 4276089
# 缩容操作参考的官方
tiup cluster scale-in <cluster-name> --node x.x.x.x:20160
1、已下线的节点均已关机,服务器不存在。无法再次执行下线操作。
2、刚才执行过pd重启,依然显示下线store节点存在

补充一个监控截图

QQ%E6%88%AA%E5%9B%BE20200722161757

  1. 使用 pd-ctl 命令 中的 store delete 删除 pd 中的试试。

https://docs.pingcap.com/zh/tidb/stable/pd-control#下载安装包

  1. 提示:tiup 中可以使用 tiup ctl pd 来操作 pd-ctl 命令

tiup ctl pd -u http://x.x.x.133:2379 store delete 1

成功删除了。查询store,只有正常的三个节点。BR备份也可正常执行

:+1:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。