TIDB升级3.0报错fatal: [172.16.9.90]: FAILED! => {"changed": false, "elapsed": 300, "msg": "the PD port 2379 is not down"}

TASK [wait until the PD port is down] ********************************************************************************************************************************************************************************* fatal: [172.16.9.90]: FAILED! => {“changed”: false, “elapsed”: 300, “msg”: “the PD port 2379 is not down”}

NO MORE HOSTS LEFT **************************************************************************************************************************************************************************************************** to retry, use: --limit @/home/tidb/tidb-ansible/retry_files/excessive_rolling_update.retry

PLAY RECAP ************************************************************************************************************************************************************************************************************ 172.16.9.88 : ok=22 changed=6 unreachable=0 failed=0
172.16.9.89 : ok=9 changed=1 unreachable=0 failed=0
172.16.9.90 : ok=42 changed=6 unreachable=0 failed=1
172.16.9.91 : ok=17 changed=1 unreachable=0 failed=0
172.16.9.92 : ok=17 changed=1 unreachable=0 failed=0
TiKV1-1 : ok=15 changed=5 unreachable=0 failed=0
TiKV1-2 : ok=3 changed=0 unreachable=0 failed=0
TiKV2-1 : ok=3 changed=0 unreachable=0 failed=0
TiKV2-2 : ok=3 changed=0 unreachable=0 failed=0
TiKV3-1 : ok=3 changed=0 unreachable=0 failed=0
TiKV3-2 : ok=3 changed=0 unreachable=0 failed=0
localhost : ok=7 changed=4 unreachable=0 failed=0

ERROR MESSAGE SUMMARY ************************************************************************************************************************************************************************************************* [172.16.9.90]: Ansible FAILED! => playbook: excessive_rolling_update.yml; TASK: wait until the PD port is down; message: {“changed”: false, “elapsed”: 300, “msg”: “the PD port 2379 is not down”}

Ask for help: Contact us: support@pingcap.com It seems that you encounter some problems. You can send an email to the above email address, attached with the tidb-ansible/inventory.ini and tidb-ansible/log/ansible.log files and the error message, or new issue on https://github.com/pingcap/tidb-ansible/issues. We’ll try our best to help you deploy a TiDB cluster. Thanks. :slight_smile:pd.rar (3.3 MB)

你好,

正在分析,请稍等。

  1. 请帮忙确认当前无法停掉的pd服务器上有几个pd进程,多谢 ps -ef | grep pd-server
  2. 请查看pd服务器上的/etc/systemd/system/目录下有几个pd的systemd service 服务
  3. 是否多次升级,并且分别使用execlling 和 rolling 都升级过?
  4. 请使用每个安装目录下的/bin/目录 pd-ctl 等命令查看pd,tidb, tikv 当前的版本,反馈信息,多谢。

%E5%9B%BE%E7%89%87 三个版本都是这个

%E5%9B%BE%E7%89%87 %E5%9B%BE%E7%89%87 %E5%9B%BE%E7%89%87

您好:

     1. 从截图看有些升级到了3.0.9,有的还是2.1.14. 
     2. 请查看这两个service 的system status是不是都是启动的,并且指向同一个pd进程启动?如果是,关闭pd.service

image

     3. 再使用rolling_update升级,多谢
rolling_update 完整的命令是什么,是这个ansible-playbook rolling_update.yml,还是要加什么的

就是这个命令

出现这错误如何解决

您好:

  1. 请帮忙确认下当前pd,tikv,tidb的版本,多谢
  2.  看一下下面这个 api 的结果: curl http://172.16.9.90:2379/pd/api/v1/config/schedule
       另外看一下其他 pd 节点的如下 api 的结果 curl http://x.x.x.x:2379/pd/api/v1/schedulers

您好:

    1. 看起来pd没有选出leader,当前pd所有节点的版本麻烦查看下
    2. 请确认当前pd的进程是否都是启动状态ps -ef | grep pd-server
    3. pd-ctl命令登入, 执行member 和 health命令,反馈结果. 

4. 请上传一份pd.log日志,多谢

前面已经给了

上一个问题不是处理了,重新滚动了一次吗? 需要查看当前的状态,麻烦再收集下日志,多谢

其他都好了,现在这问题怎么解决呢

你好,

登录对应服务器查看该服务是否存在于 /etc/systemd/system/,如果存在尝试手动启动是否可行

如果不存在请从其他服务器 scp 并赋权和名称,在执行 ansible-play 看是否可解决