【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
问题描述
1.某台tikv机器出现异常,需要停机维修
2.操作步骤:迁移leader,设置max-store-down-time
3.确认leader迁移完成后,stop tikv服务
4.预期只有迁移leader期间会出现抖动,但是后续出现了20分钟左右的抖动,抖动原因是not leader
疑问:
有没有办法提前避免这个问题
WalterWj
(王军 - PingCAP)
5
这个时间是在自动补数据么?我看配置了 max-store-down-time ,如果没有补,但是遇到 no leader 可能不是很预期,有大量 leader 切换什么的?或者集群压力比较大?
kevinsna
(Ti D Ber P O Zcnp Ja)
7
如果leader迁移完成后仍然出现抖动,并且抖动原因是not leader,这可能是因为部分请求没有及时更新到新的leader信息。您可以尝试以下方法:
1、增加max-snapshot-count来加快补副本的速度
2、调整region-schedule-limit来控制同时进行Region调度的任务个数,避免过多的调度任务影响集群稳定性
3、检查集群的监控,确认是否有其他节点也出现了问题,或者是否有资源瓶颈导致新的leader无法及时处理请求。