从ansible向tiup迁移时出现问题

这是开始tiup升级的相关日志信息alertmanager_part.log.tar.gz (536.8 KB)

看起来是 v1.1.0 的那个 bug,麻烦执行以下命令确认下您的版本:
tiup cluster --version

tiup --version 输出的是 tiup 这个版本,tiup cluster --version 输出的是 cluster 这个组件的版本,您应该查看后者是否为 v1.1.0,如果是的话可以执行 tiup update cluster 来升级它

确实,我先升级一下,然后再重新reload试试?
之前用tiup -v查看版本,理解有误,抱歉

是的,先升级然后再 reload

你好,更新版本后,reload操作能够顺利执行。

但使用display查看当前的节点状态发现tikv存在多个down,请问在当前条件下,是否能直接进行tiup upgrade升级?或者有什么办法进行down->up的状态恢复?

tidb@three:~/tidb-enterprise-tools-latest-linux-amd64$ tiup cluster display test-cluster 
Starting component `cluster`: /home/tidb/.tiup/components/cluster/v1.1.1/tiup-cluster display test-cluster
tidb Cluster: test-cluster
tidb Version: v3.1.0-beta.1
ID                 Role          Host         Ports        OS/Arch       Status  Data Dir                                        Deploy Dir
--                 ----          ----         -----        -------       ------  --------                                        ----------
10.12.5.232:9093   alertmanager  10.12.5.232  9093/9094    linux/x86_64  Up      /home/tidb/deploy/data.alertmanager             /home/tidb/deploy
10.12.5.232:3000   grafana       10.12.5.232  3000         linux/x86_64  Up      -                                               /home/tidb/deploy
10.12.5.113:2379   pd            10.12.5.113  2379/2380    linux/x86_64  Up|L    /home/tidb/deploy/data.pd                       /home/tidb/deploy
10.12.5.114:2379   pd            10.12.5.114  2379/2380    linux/x86_64  Up      /home/tidb/deploy/data.pd                       /home/tidb/deploy
10.12.5.115:2379   pd            10.12.5.115  2379/2380    linux/x86_64  Up      /home/tidb/deploy/data.pd                       /home/tidb/deploy
10.12.5.232:9090   prometheus    10.12.5.232  9090         linux/x86_64  Up      /home/tidb/deploy/prometheus2.0.0.data.metrics  /home/tidb/deploy
10.12.5.114:4000   tidb          10.12.5.114  4000/10080   linux/x86_64  Up      -                                               /home/tidb/deploy
10.12.5.115:4000   tidb          10.12.5.115  4000/10080   linux/x86_64  Up      -                                               /home/tidb/deploy
10.12.5.214:20160  tikv          10.12.5.214  20160/20180  linux/x86_64  Down    /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.220:20160  tikv          10.12.5.220  20160/20180  linux/x86_64  Up      /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.221:20160  tikv          10.12.5.221  20160/20180  linux/x86_64  Up      /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.223:20160  tikv          10.12.5.223  20160/20180  linux/x86_64  Up      /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.224:20160  tikv          10.12.5.224  20160/20180  linux/x86_64  Up      /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.226:20160  tikv          10.12.5.226  20160/20180  linux/x86_64  Down    /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.227:20160  tikv          10.12.5.227  20160/20180  linux/x86_64  Down    /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.228:20160  tikv          10.12.5.228  20160/20180  linux/x86_64  Down    /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.229:20160  tikv          10.12.5.229  20160/20180  linux/x86_64  Down    /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.230:20160  tikv          10.12.5.230  20160/20180  linux/x86_64  Up      /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.231:20160  tikv          10.12.5.231  20160/20180  linux/x86_64  Down    /home/tidb/deploy/data                          /home/tidb/deploy
10.12.5.233:20160  tikv          10.12.5.233  20160/20180  linux/x86_64  Up      /home/tidb/deploy/data                          /home/tidb/deploy

另外,查看了某个down的tikv日志,发现基本处于下面log的状态:

[2020/09/02 05:08:40.249 +00:00] [INFO] [raft.rs:858] ["[region 231516] 17043835 received MsgRequestVoteResponse from 17579657 at term 9638"]
[2020/09/02 05:08:40.250 +00:00] [INFO] [raft.rs:1587] ["[region 231516] 17043835 [quorum:2] has received 2 MsgRequestVoteResponse votes and 0 vote rejections"]
[2020/09/02 05:08:40.250 +00:00] [INFO] [raft.rs:793] ["[region 231516] 17043835 became leader at term 9638"]

请问处于down的状态时,是否可以进行滚动升级?

先尝试启动一下 tikv: tiup cluster start -R tikv

你好,在upgrade时仍然出现default rocksdb not exist, buf raftdb exist的报错,请问是否能够使用 --ignore-config-check 参数跳过检查,继续升级?

可以。

目前从ansbile-> tiup, v3.0.1 -》 v4.0.0的升级已经正常完成,谢谢帮助

:call_me_hand: