TiKV进行维护，提前迁移leader，怎么能够降低集群抖动

TiDBer_C33 · 2024 年12 月 4 日 03:47

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】
问题描述
1.某台tikv机器出现异常，需要停机维修
2.操作步骤：迁移leader，设置max-store-down-time
3.确认leader迁移完成后，stop tikv服务
4.预期只有迁移leader期间会出现抖动，但是后续出现了20分钟左右的抖动，抖动原因是not leader

疑问：
有没有办法提前避免这个问题

WalterWj · 2024 年12 月 4 日 06:51

推荐升级，新版本 tidb 稳定性是有提升的。

TiDBer_C33 · 2024 年12 月 4 日 08:03

请问高版本这方面是怎么样避免的呢

WalterWj · 2024 年12 月 4 日 09:07

在 raftstore 线程中避免进行快照文件的 IO 操作，提高 TiKV 稳定性 #16564 @Connor1996
加快 TiKV 停机的速度 #16680 @LykxSassinator

WalterWj · 2024 年12 月 4 日 09:07

这个时间是在自动补数据么？我看配置了 max-store-down-time ，如果没有补，但是遇到 no leader 可能不是很预期，有大量 leader 切换什么的？或者集群压力比较大？

The-Fallen-Angel · 2024 年12 月 4 日 10:26

高版本有优化，4到8 升级跨度有点大。

kevinsna · 2024 年12 月 4 日 10:34

如果leader迁移完成后仍然出现抖动，并且抖动原因是not leader，这可能是因为部分请求没有及时更新到新的leader信息。您可以尝试以下方法：
1、增加max-snapshot-count来加快补副本的速度
2、调整region-schedule-limit来控制同时进行Region调度的任务个数，避免过多的调度任务影响集群稳定性
3、检查集群的监控，确认是否有其他节点也出现了问题，或者是否有资源瓶颈导致新的leader无法及时处理请求。