Tidb2.1.7升级3.0.11失败

Hacker_i7q46eO6 · 2020 年3 月 12 日 04:33

Tidb2.1.7升级tidb3.0.11报错
%E5%9B%BE%E7%89%87

手动delete调evict后，再次执行升级命令，excessive_rolling_update.yml后，再次报错
%E5%9B%BE%E7%89%87

yilong · 2020 年3 月 12 日 04:44

您好：

   1. 请在中控机inventory.ini文件中检查下process_supervision参数值
   2. 升级时添加-vvv参数，打印下详细错误
   3. 上传中控机<deploy>/log目录下的ansible.log文件

Hacker_i7q46eO6 · 2020 年3 月 12 日 06:48

process_supervision=systemd
ansible.log (1009.5 KB)

yilong · 2020 年3 月 12 日 07:18

您好：

  1.  从ansible日志里查看，获取health失败

2020-03-12 14:30:15,127 p=12941 u=tidb | ERROR MESSAGE SUMMARY ******************************************************************************************************************************************************************************************************************************************************** 2020-03-12 14:30:15,127 p=12941 u=tidb | [PD-1]: Ansible FAILED! => playbook: excessive_rolling_update.yml; TASK: Check pd cluster status; message: {“changed”: false, “content”: “”, “msg”: “Status code was -1 and not [200]: Request failed: <urlopen error [Errno 111] Connection refused>”, “redirected”: false, “status”: -1, “url”: “http://192.168.83.155:2379/pd/health”}

   2. 请使用curl -G http://192.168.83.155:2379/pd/health 检查pd是否正常
   3. 如果异常，尝试先修复pd，多谢
   4. 之前说的delete evict是怎么操作的

Hacker_i7q46eO6 · 2020 年3 月 12 日 07:30

使用curl delete ip:2379/pd/api/v1/schedulers/evict-leader-scheduler-4删除的。我重启tidb后，pd好了，我再次执行升级命令，还是升级失败。提示让检查pd状态，我在浏览器里查看3个pd的health都是true，怀疑是不是我执行的delete导致了后续问题

Hacker_i7q46eO6 · 2020 年3 月 12 日 07:56

看了下pd stores 我3个store，1个是3.0.11，2个是2.1.6 %E5%9B%BE%E7%89%87

yilong · 2020 年3 月 12 日 08:04

你好：

   1. 升级过程中要滚动升级pd，如果正好leader在store 4上，你把evict leader删掉了，他没法把leader转移出去了。
   2. 尝试增加一个调度器，看看能否成功

https://pingcap.com/docs-cn/stable/reference/best-practices/pd-scheduling/#leaderregion-分布不均衡