extra-peer-region-count很高,突然下降后又会逐渐上升,很奇怪

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:4.0.5
  • 【问题描述】:

extra-peer-region-count 持续升高应该是集群出现异常了,没有定位到具体的原因. 有个大表之前truncate操作过,最近又重新将历史数据写入到该表中了.

可以提供一下 tiup cluster display ${cluster-name} 的结果么,看下集群中有哪些组件?
集群是否有使用 TiFlash 节点?

extra-peer-region-count 这个应该是 TiFlash 节点引起的

安装了一个tiflash节点和 tikv在一台机器上

truncate 的表是设置了 TiFlash 副本的表么,如果是的话,那 extra-peer-region-count 的监控信息,应该是符合预期的

tiflash表中的数据每天truncate然后再重新导入一遍数据

那 extra-peer-region-count 突然下降的时间点能与 truncate 的时间点对应上么?上升的时间段与重新导入数据的时间段是否可以对应?

对应不起来

truncate 操作是在什么时间点操作的?因为我在我电脑上看监控和你的监控截图中的时间似乎是有 8 小时时差的

监控数据的时间范围添加了一天的时间,之前的监控数据只有对应的leader变动的数据,这次把 extra-peer-region-count突变的监控数据发你了

通过 PD 的监控看,extra-peer-region-count 下降的时间点,当时的 leader score/region score/leader size/region size/leader count/regin count 都有掉底的情况

猜测可能是当时 tikv store 上报 store 心跳信息有问题,建议排查一下当时 pd 与 tikv 之间的网络情况。
另外建议 tikv 以及 pd 日志级别修改为 info 级别,目前 TiDB 的日志级别还不是非常的标准,ERROR 级别的日志不便于定位问题。