TiKV进行维护,提前迁移leader,怎么能够降低集群抖动

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
问题描述
1.某台tikv机器出现异常,需要停机维修
2.操作步骤:迁移leader,设置max-store-down-time
3.确认leader迁移完成后,stop tikv服务
4.预期只有迁移leader期间会出现抖动,但是后续出现了20分钟左右的抖动,抖动原因是not leader

疑问:
有没有办法提前避免这个问题

推荐升级,新版本 tidb 稳定性是有提升的。

请问高版本这方面是怎么样避免的呢

这个时间是在自动补数据么?我看配置了 max-store-down-time :thinking:,如果没有补,但是遇到 no leader 可能不是很预期,有大量 leader 切换什么的?或者集群压力比较大?

高版本有优化,4到8 升级跨度有点大。

如果leader迁移完成后仍然出现抖动,并且抖动原因是not leader,这可能是因为部分请求没有及时更新到新的leader信息。您可以尝试以下方法:
1、增加max-snapshot-count来加快补副本的速度
2、调整region-schedule-limit来控制同时进行Region调度的任务个数,避免过多的调度任务影响集群稳定性
3、检查集群的监控,确认是否有其他节点也出现了问题,或者是否有资源瓶颈导致新的leader无法及时处理请求。