9012 (HY000): TiFlash server timeout

拿一下 TiKV 最近的日志?需要看一下 region 25832 的情况

最近10000条tikv log:
tikv-.log (2.8 MB) tikv-0.log (2.8 MB) tikv-1.log (2.8 MB)


日志里报 not leader 是正常的,10:32 确实有 leader 切换。leader 切换是 pd 调度发起的。看之前的截图,该 region 的 leader 每隔几分钟就被切换一次。

切换若正常的为什么是warning不是info呢?
看tiflash 每次报的都是这个region id,没有看到其它region id


从监控看leader 比较稳定

修改配置后,是还会一直打这个错误吗?

tiflash3930端口正常了,还会一直打印这个错误,

请问在持续打印这样 “peer is not leader for region” 日志的情况下,在业务上到 tiflash 的读、写有具体收到影响么?

感谢您关注,在原来数据基础上1T,本周会准备增量1T数据,预计下周开始导入,还没开始正式使用。从技术上看,是否可以具体看下region id,更深入看下具体问题

可以搜集下这些信息

  1. 使用 ./pd-ctl 确认下 region 25832 目前的信息
  2. 在 pd 以及 tikv 的日志中,搜索一下 “25832” 这个 id,过滤出相关的日志


25832 日志信息太多,只打印了最近10000行的
pd-0.log (2.3 MB) tikv-0.log (963.8 KB)
store_info.log (5.8 KB)

这个问题一直存在,帮看下

通过 pd-ctl region check 和 pd-ctl operator add 处理一下状态异常的 region。
参考:
https://docs.pingcap.com/zh/tidb/stable/pd-control#region-check-miss-peer--extra-peer--down-peer--pending-peer--offline-peer--empty-region--hist-size--hist-keys
https://docs.pingcap.com/zh/tidb/stable/pd-control#operator-check--show--add--remove

另外请确认 pd 调度能力是否正常运行。

之前已提供相关日志和报错,已锁定到问题region 是25832,已贴出该region信息,请帮具体性深入分析和指导操作
另外 miss-peer|down-peer|pending-peer|offline-peer|extra-peer 未发现异常
image

个人猜测可能由于一个region没有leader导致tiflash不能通过该region的信息。可能需要先将没有leader的region修复之后再看看。

通过pd-ct lregion 25832 查看有 leader ,前面已贴出截图,问题进一步定位需要实操性引导。

帮持续关注下,遗留问题一直还在哦:pray: