tiup cluster reload 报错 tansafer leader timeout

wluckdog · 2020 年4 月 17 日 01:05

执行了两遍，报了不同的节点的相同错误

GangShen · 2020 年4 月 17 日 01:48

reload 的时候会滚动重启 TiKV 节点，在关闭 TiKV 节点时会先将这个节点上的 leader 迁移到别的节点上，等所有 leader 迁移走后，然后关闭这个节点，减少 TiKV 节点重启的影响。

reload 的时候等待 TiKV 将所有 leader 迁移走，这个默认的超时时间是 5 分钟，可以调整一下超时时间 --tansafer-timeout 选项，再试下

如果还是有无法迁移走所有的 leader 节点。麻烦提供一下 pd-ctl 执行 store 命令的输出结果，可以排查下 leader 无法迁移的问题。

wluckdog · 2020 年4 月 17 日 01:55

输出结果太长，只能截图一部分

GangShen · 2020 年4 月 17 日 02:10

wluckdog · 2020 年4 月 17 日 02:13

111.txt (13.2 KB)

指定 --tansafer-timeout 1200

卡在这里不动了

wluckdog · 2020 年4 月 17 日 02:18

这个能回退到ansible 嘛，着急，有其他操作要做

GangShen · 2020 年4 月 17 日 02:20

通过 import 导入到 tiup 的 ansible 是被归档了可以通过 find / -name inventory.ini 命令查找一下 ansible 归档路径

wluckdog · 2020 年4 月 17 日 02:22

就是可以用ansible 吧

GangShen · 2020 年4 月 17 日 02:25

建议不要 tiup 和 ansible 方式混用，会导致不可以预知的风险。

方便的话，麻烦上传一下 pd leader 节点的日志，看下是否是因为迁移 leader 的过程中是否有调度失败的情况

wluckdog · 2020 年4 月 17 日 02:29

那就把tiup删除了，可以嘛

wluckdog · 2020 年4 月 17 日 02:34

1.3 第一个pd节点

1.4第二个pd节点

1.5 第三个pd节点

wluckdog · 2020 年4 月 17 日 02:35

–tansafer-timeout 1200 还是报错了

wluckdog · 2020 年4 月 17 日 02:39

你好，我只是导入了tiup，没有升级下面的版本，因为我们本来就是这个版本，应该可以用ansible 吧

tiup cluster upgrade v4.0.0-rc

Jiahao · 2020 年4 月 17 日 03:29

跑 reload 是因为修改了配置要重起生效吗？

reload 重启前会先 trasfer kv 的leader, 后面我们会提供选项或略超时或者默认或略

目前如果要重启可以直接 restart 集群，因为前面跑 reload 配置已经更新到对应机器了，但 restart 不会做 transfer leader.

如果只是要缩容一个 kv 应该用 scale-in