TIDB升级3.0报错fatal: [172.16.9.90]: FAILED! => {"changed": false, "elapsed": 300, "msg": "the PD port 2379 is not down"}

zhouhongfei · 2020 年4 月 14 日 07:45

TASK [wait until the PD port is down] *********************************************************************************************************************************************************************************
fatal: [172.16.9.90]: FAILED! => {“changed”: false, “elapsed”: 300, “msg”: “the PD port 2379 is not down”}

NO MORE HOSTS LEFT ****************************************************************************************************************************************************************************************************
to retry, use: --limit @/home/tidb/tidb-ansible/retry_files/excessive_rolling_update.retry

PLAY RECAP ************************************************************************************************************************************************************************************************************
172.16.9.88 : ok=22 changed=6 unreachable=0 failed=0
172.16.9.89 : ok=9 changed=1 unreachable=0 failed=0
172.16.9.90 : ok=42 changed=6 unreachable=0 failed=1
172.16.9.91 : ok=17 changed=1 unreachable=0 failed=0
172.16.9.92 : ok=17 changed=1 unreachable=0 failed=0
TiKV1-1 : ok=15 changed=5 unreachable=0 failed=0
TiKV1-2 : ok=3 changed=0 unreachable=0 failed=0
TiKV2-1 : ok=3 changed=0 unreachable=0 failed=0
TiKV2-2 : ok=3 changed=0 unreachable=0 failed=0
TiKV3-1 : ok=3 changed=0 unreachable=0 failed=0
TiKV3-2 : ok=3 changed=0 unreachable=0 failed=0
localhost : ok=7 changed=4 unreachable=0 failed=0

ERROR MESSAGE SUMMARY *************************************************************************************************************************************************************************************************
[172.16.9.90]: Ansible FAILED! => playbook: excessive_rolling_update.yml; TASK: wait until the PD port is down; message: {“changed”: false, “elapsed”: 300, “msg”: “the PD port 2379 is not down”}

Ask for help:
Contact us: support@pingcap.com
It seems that you encounter some problems. You can send an email to the above email address, attached with the tidb-ansible/inventory.ini and tidb-ansible/log/ansible.log files and the error message, or new issue on https://github.com/pingcap/tidb-ansible/issues. We’ll try our best to help you deploy a TiDB cluster. Thanks. pd.rar (3.3 MB)

zhouhongfei · 2020 年4 月 14 日 07:49

来了老弟 · 2020 年4 月 14 日 07:50

你好，

正在分析，请稍等。

yilong · 2020 年4 月 14 日 08:00

请帮忙确认当前无法停掉的pd服务器上有几个pd进程，多谢 ps -ef | grep pd-server
请查看pd服务器上的/etc/systemd/system/目录下有几个pd的systemd service 服务
是否多次升级，并且分别使用execlling 和 rolling 都升级过？
请使用每个安装目录下的/bin/目录 pd-ctl 等命令查看pd，tidb， tikv 当前的版本，反馈信息，多谢。

zhouhongfei · 2020 年4 月 14 日 08:09

zhouhongfei · 2020 年4 月 14 日 08:12

%E5%9B%BE%E7%89%87 三个版本都是这个

zhouhongfei · 2020 年4 月 14 日 08:16

%E5%9B%BE%E7%89%87

yilong · 2020 年4 月 14 日 08:24

您好：

     1. 从截图看有些升级到了3.0.9，有的还是2.1.14. 
     2. 请查看这两个service 的system status是不是都是启动的，并且指向同一个pd进程启动？如果是，关闭pd.service

     3. 再使用rolling_update升级，多谢

zhouhongfei · 2020 年4 月 14 日 08:29

rolling_update 完整的命令是什么,是这个ansible-playbook rolling_update.yml，还是要加什么的

yilong · 2020 年4 月 14 日 08:32

就是这个命令

zhouhongfei · 2020 年4 月 14 日 08:40

出现这错误如何解决

yilong · 2020 年4 月 14 日 09:20

您好：

  1. 请帮忙确认下当前pd，tikv，tidb的版本，多谢
  2.  看一下下面这个 api 的结果： curl http://172.16.9.90:2379/pd/api/v1/config/schedule
       另外看一下其他 pd 节点的如下 api 的结果 curl http://x.x.x.x:2379/pd/api/v1/schedulers

zhouhongfei · 2020 年4 月 14 日 09:30

yilong · 2020 年4 月 14 日 09:43

您好：

    1. 看起来pd没有选出leader，当前pd所有节点的版本麻烦查看下
    2. 请确认当前pd的进程是否都是启动状态ps -ef | grep pd-server
    3. pd-ctl命令登入， 执行member 和 health命令，反馈结果.

https://pingcap.com/docs-cn/v3.0/reference/tools/pd-control/#下载安装包
4. 请上传一份pd.log日志，多谢

zhouhongfei · 2020 年4 月 14 日 09:54

前面已经给了

yilong · 2020 年4 月 14 日 09:58

上一个问题不是处理了，重新滚动了一次吗？需要查看当前的状态，麻烦再收集下日志，多谢

zhouhongfei · 2020 年4 月 14 日 10:23

其他都好了，现在这问题怎么解决呢

来了老弟 · 2020 年4 月 14 日 11:39

你好，

登录对应服务器查看该服务是否存在于 /etc/systemd/system/，如果存在尝试手动启动是否可行

如果不存在请从其他服务器 scp 并赋权和名称，在执行 ansible-play 看是否可解决

system · 2022 年10 月 31 日 19:11

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。