tidb.log 中有大量的 switch region leader to specific 正常吗?


如上图 tidb.log 中有大量的 switch region leader to specific 正常吗?

是在导入数据么?看类似帖子,是没什么影响。

这个日志是tidb 发送 region 请求到tikv 上访问到的 region 不是 leader ,可能是region cache 过期导致的,会自动重试,如果不多的话应该不会有业务影响。

我看每个实例里面 多的8000 少的也有几百 , 8000 多还是是多还是少啊? 依据什么评估呢?

看着是不同现象

有过扩缩容等操作吗

看看grafana的监控,看看是不是某个tikv挂了,leader全跑了。然后又均衡回来了。

有过扩容操作,但那都是去年11月的操作了

你的意思是 tikve挂了 然后又自己好啦?

有这个可能,比如说网络抖动、或者tikv的压力过大之类的原因。

从监控上看 集群没有异常现象,kv 也没有挂的痕迹

那不是扩缩容导致的,应该还是什么原因导致了大量leader迁移。是持续一段时间就好了,还是一直报这个。

看pd,有个operator的页面,监控operator生成、check,处理,取消的图。看看大部分什么原因处理的。

这个系统业务量非常少,应该不是tikv压力过大。

没什么异常吧

我对比最近几天 大概都差不多

这个就是热点写比较多,还有就是平衡region。如果这个影响到了tidb,可以限制下速度,

pd-ctl -i 
store limit all 5

默认storelimit 是15,意味着一分钟每个store处理15个region动作,限制成5可以降低一些。 如果没什么异常,不用操作。原因就是调整调整热点写的region

这个会造成应用连接中断吗?还是说会造成应用响应时间过长?

响应时间长。 tidb本身有region leader位置的缓存,如果region位置变化了,tidb节点需要从pd重新获取一下,所以延迟就高一些。 别的没什么影响。

你看的是图片里面 transfer-hot-write-leader 这个指标吗?