extra-peer-region-count很高,突然下降后又会逐渐上升,很奇怪

wanglw · 2020 年11 月 8 日 01:18

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

extra-peer-region-count 持续升高应该是集群出现异常了,没有定位到具体的原因. 有个大表之前truncate操作过,最近又重新将历史数据写入到该表中了.

GangShen · 2020 年11 月 9 日 02:05

可以提供一下 tiup cluster display ${cluster-name} 的结果么，看下集群中有哪些组件？
集群是否有使用 TiFlash 节点？

GangShen · 2020 年11 月 9 日 04:33

extra-peer-region-count 这个应该是 TiFlash 节点引起的

wanglw · 2020 年11 月 9 日 05:38

安装了一个tiflash节点和 tikv在一台机器上

GangShen · 2020 年11 月 9 日 06:00

truncate 的表是设置了 TiFlash 副本的表么，如果是的话，那 extra-peer-region-count 的监控信息，应该是符合预期的

wanglw · 2020 年11 月 9 日 06:06

tiflash表中的数据每天truncate然后再重新导入一遍数据

GangShen · 2020 年11 月 9 日 06:45

那 extra-peer-region-count 突然下降的时间点能与 truncate 的时间点对应上么？上升的时间段与重新导入数据的时间段是否可以对应？

wanglw · 2020 年11 月 9 日 06:54

对应不起来

GangShen · 2020 年11 月 9 日 07:06

truncate 操作是在什么时间点操作的？因为我在我电脑上看监控和你的监控截图中的时间似乎是有 8 小时时差的

wanglw · 2020 年11 月 9 日 07:57

监控数据的时间范围添加了一天的时间,之前的监控数据只有对应的leader变动的数据,这次把 extra-peer-region-count突变的监控数据发你了

GangShen · 2020 年11 月 9 日 11:17

通过 PD 的监控看,extra-peer-region-count 下降的时间点，当时的 leader score/region score/leader size/region size/leader count/regin count 都有掉底的情况

猜测可能是当时 tikv store 上报 store 心跳信息有问题，建议排查一下当时 pd 与 tikv 之间的网络情况。
另外建议 tikv 以及 pd 日志级别修改为 info 级别，目前 TiDB 的日志级别还不是非常的标准，ERROR 级别的日志不便于定位问题。