TIKV报错集群报错

yjicfdx · 2020 年7 月 9 日 01:45

环境说明
版本:TIDBv4.0.0
环境说明：3TiDB+3TiPD+3TiKV+1TiFlash
故障说明：tikv三个节点均报以下错误

-------------------------------日志开始-----------------------------------------
[2020/07/09 09:21:02.016 +08:00] [WARN] [endpoint.rs:527] [error-response] [err=“Region error (will back off and retry) message: "peer is not leader for region 28, leader may Some(id: 29 store_id: 2)" not_leader { region_id: 28 leader { id: 29 store_id: 2 } }”]
[2020/07/09 09:21:02.128 +08:00] [WARN] [endpoint.rs:527] [error-response] [err=“Region error (will back off and retry) message: "peer is not leader for region 28, leader may Some(id: 29 store_id: 2)" not_leader { region_id: 28 leader { id: 29 store_id: 2 } }”]
[2020/07/09 09:21:02.136 +08:00] [WARN] [endpoint.rs:527] [error-response] [err=“Region error (will back off and retry) message: "peer is not leader for region 28, leader may Some(id: 29 store_id: 2)" not_leader { region_id: 28 leader { id: 29 store_id: 2 } }”]
---------------------日志结束-----------------------------------------------
监控报错截图如下：

来了老弟 · 2020 年7 月 9 日 02:28

hi
我们可能需要更多的日志来判断错误，辛苦上传下 9:30-10:00 的 tikv 日志和 pd log

yjicfdx · 2020 年7 月 9 日 05:50

logs.zip (10.6 KB)
您好，需要的日志在附件中，非常感谢。

来了老弟 · 2020 年7 月 9 日 07:08

此warning 的原因是：TiKV 将 leader 调度走了，TiDB 会从 PD 重新获取路由信息

看下 tikv 日志和监控的 OPM，该 warning 数量少是正常的，不知对当前业务是否有影响.

yjicfdx · 2020 年7 月 9 日 07:47

目前应用层面没发现异常，报错数量不多，非常感谢，有问题再跟您请教。

来了老弟 · 2020 年7 月 9 日 07:56

ok~

zhangdan1 · 2020 年8 月 13 日 08:19

这种报错多的话,要怎么解决呢?我发现tikv的日志里有这种错误,insert一条数据需要几百ms,这种情况怎么优化呢?

来了老弟 · 2020 年8 月 13 日 08:22

先检查服务器是否已经到了瓶颈，从硬件方面，如果可以，希望开贴我们跟下