tidb 2.0 升级到3.0最新版本无响应

zhengshibing · 2019 年12 月 26 日 06:08

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：5.7.10-TiDB-v2.0.11
【问题描述】：tidb 版面升级到3.0最新版本，参考的升级操作步骤为

https://pingcap.com/docs-cn/stable/how-to/upgrade/from-previous-version/

升级命令为 “ansible-playbook excessive_rolling_update.yml”
升级到如下日志后，已经卡两个小时没有新输出了，可以在哪儿看到升级状态呢

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

yilong · 2019 年12 月 26 日 06:54

df -h ， df -i 看一下升级的服务器是不是磁盘满了？

zhengshibing · 2019 年12 月 26 日 07:19

服务器磁盘剩余空间比较大的，这是测试服务器，tidb安装在/home/tidb下面

我的组网情况是，
tidb\tipd和其中一个tikv节点安装在一起，
一共三个tikv服务器节点

yilong · 2019 年12 月 26 日 07:23

集群拓扑是什么样的呢？几个tidb，pd？另外查一下所有机器的df -h 和df -i

zhengshibing · 2019 年12 月 26 日 07:27

组网结构如下：一个tidb、一个tipd。

三个节点的df -h 和df -i结果如下

yilong · 2019 年12 月 26 日 07:37

麻烦执行下这个命令 df -h . | tail -n1

zhengshibing · 2019 年12 月 26 日 07:50

命令结果如下

yilong · 2019 年12 月 26 日 08:09

取消升级，在升级命令后增加 -vvv看一下能否打出详细信息，多谢

zhengshibing · 2019 年12 月 26 日 08:11

好的，我先试试

zhengshibing · 2019 年12 月 26 日 08:33

您好，我再次执行升级，报错如下，需要把tidb集群停止，再升级吗

zhengshibing · 2019 年12 月 26 日 08:57

我把原集群停止后，用命令ansible-playbook start.yml 启动报错，再怎么都启动不起来，可以从哪儿定位呢，我看了log日志，里面也没有关于这个端口启动的错误信息

Lucien-卢西恩 · 2019 年12 月 26 日 09:04

麻烦提供一下 2 个信息：

为了方便分析，请将 tidb-ansible/log/ansible.log 压缩上传；
梳理一下从 excessive_rolling_update.yml 报错以后的所有操作和现象加以描述。

zhengshibing · 2019 年12 月 26 日 09:13

您好，日志如下ansible.tar.gz (97.3 KB)

执行excessive_rolling_update.yml 报错后，我这边在三个尝试了再次滚动升级，然后出现错误信息：
1 没有安装NTP，安装完NTP后，重新执行
2 接下来提示SWAP未关闭，关闭SWAP后，再执行ansible-playbook excessive_rolling_update.yml -vvv 报错
“the PD port 2379 is not down”
3 看到这个报错后，我就ansible-playbook stop.yml ，接下来执行启动命令ansible-playbook start.yml的时候，就启动不起来了，出现的报错信息，就是最后的截图信息

Lucien-卢西恩 · 2019 年12 月 26 日 09:43

原因：

现在通过 ansible-playbook start.yml 启动集群，目前 pd 启动是正常的，现在启动 tikv 并且验证 tikv 服务是否正常报错，连接被拒绝，说明对应节点的 TiKV 服务没有启动:

2019-12-26 16:43:42,043 p=11160 u=tidb |  fatal: [10.8.48.204]: FAILED! => changed=false
  attempts: 12
  content: ''
  msg: 'Status code was -1 and not [200]: Request failed: <urlopen error [Errno 111] Connection refused>'
  redirected: false
  status: -1
  url: http://10.8.48.204:20180/status
2019-12-26 16:43:42,044 fail [10.8.48.204]: Ansible Failed! ==>
  changed=false
  attempts: 12
  content: ''
  msg: 'Status code was -1 and not [200]: Request failed: <urlopen error [Errno 111] Connection refused>'
  redirected: false
  status: -1
  url: http://10.8.48.204:20180/status

2019-12-26 16:43:42,346 p=11160 u=tidb |  fatal: [10.8.48.205]: FAILED! => changed=false
  attempts: 12
  content: ''
  msg: 'Status code was -1 and not [200]: Request failed: <urlopen error [Errno 111] Connection refused>'
  redirected: false
  status: -1
  url: http://10.8.48.205:20180/status
.....

可以通过一下操作分别验证 tikv 的状态是否返回正常：
curl http://{{ ansible_host }}:{{ tikv_status_port }}/status

排查方法

通过 ssh 登陆到目标 tikv 检查服务状态是否正常（ps -ef |grep tikv-server）以及 tikv 的日志是否有 “Welcome" 关键词且 对应的时间 是否为 ansible-playbook 拉起 tikv 的时间的 log 日志，并反馈 tikv log 的日志报错。
如果 tikv log 中发现 tikv 没有被拉起，同时 tikv 服务不正常，需要确认 tidb-ansible 中 start.yml 执行启动的 tikv 的 systemd 的 service tikv-{{ tikv_port }}.service 是否正确，对应的位置在 /etc/system/systemd/ 下面有启动服务文件，start.yml 中的启动脚本为：

    - name: start TiKV by systemd
      systemd: name=tikv-{{ tikv_port }}.service state=started enabled=no
      become: true
      when: process_supervision == 'systemd'

    - name: wait until the TiKV port is up
      wait_for:
        host: "{{ ansible_host }}"
        port: "{{ tikv_port }}"
        state: started
        msg: "the TiKV port {{ tikv_port }} is not up"