ansbile升级集群V3到4.0.14问题

Bug 反馈
由于线上集群环境部署特殊,需要继续使用ansible继续滚动升级到最新版本,目前发现在4.0.9之前滚动没发现问题,滚动PD后,通过scheduler show 可以看到默认的几个调度,过几分钟默认调度策略消失,image
查看列表为空,再滚动TIKV后过程中添加的驱逐store 策略,默认策略和驱逐策略都消失,导致后面remove报错提示404(执行剧本:common_tasks/remove_evict_leader_scheduler.yml),查看schedulers 列表为空,滚动日志提示:


【 Bug 的影响】
影响集群滚动到4.0.14版本,tikv滚动过程无法删除store的evit信息

image

3 个赞

V3.x 如果是 Ansible 部署的,升级到 4.x的时候,推荐使用tiup

参考这个操作文档:
https://docs.pingcap.com/zh/tidb/v4.0/tiup-cluster#导入-tidb-ansible-集群

3 个赞

我这有些配置没法使用TIUP的

3 个赞

这个场景就比较痛苦了,官方后续只会支持tiup 的迭代

evict 的策略 是通过 PD 来设定的,目前你出现的问题,基本上都是环境问题了,可能无法解决 :rofl:

1 个赞

这个问题也能解决,就是不清楚 scheduler 是怎么刷新的。

从 grafana 上可以观察到 PD -> operator -> scheduler operator create 的生成
然后 PD -> Scheduler -> Scheduler is running 可以查阅到正在运行的

生成基本上都是通过 PD 来实现调度的,然后 tikv 是接收者

集群刚开始滚动得时候,pd刚滚动完成时候,几种默认调度都存在的,,开始滚动TIKV时候 就会消失一段时间的,看监控 应该没什么用

升级完成以后,默认的调度不会显示在监控么?

会的,,,过个10分钟 就出现了

那还是恢复了嘛

不符合预期的

如果环境能切换到 tiup,还是建议用 tiup 的,这样也符合社区的发展方向

你可以搭个测试环境试试

嗯 找到解决问题的办法 就是多验证:sweat_smile: