miss-peer-region-count不下降

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.5
【遇到的问题:问题现象及影响】
集群突然出现很多miss-peer-region-count。
查询到在每个节点的region的数量是均衡的。
【资源配置】
3个kv节点,3个pd节点,3个tidb-server节点
【附件:截图/日志/监控】


企业微信截图_16805755331514

请各路大神指点。

检查下各个tikv状态

kv的状态都是正常的。

  1. 集群拓扑是什么样的?
  2. 有磁盘的报错吗?
  3. 有调度卡住吗?
  4. tikv日志有报错吗?

集群拓扑:

磁盘应该没有报错。
怎么查调度信息呢?

  1. grafana监控:pd-scheduler
  2. 看看各个tikv节点的os log
  3. pd的日志
  4. 整体网络情况
  5. grafana监控:pd-heartbeat
  6. tiup cluster display XXX

pd日志:
[WARN] [util.go:163] [“apply request took too long”] [took=157.598105ms] [expected-duration=100ms] [prefix="read-only range "] [request="key:"/topology/tidb/" range_end:"/topology/tidb0" "] [response=“range_response_count:6 size:1059”] []

pd-heartbeat:

pd-scheduler:

tiup cluster display:

pd-ctl region check miss-peer 看看是哪些region。 然后pd-ctl region xx看下状态


两种方式查看同一个region,“pending_peers”不同。是这个问题吗?

config show miss-peer 的数量非常多,不知如何统计具体数量

除了miss-peer也有很多empty-region 和 undersized-region。

看tikv的磁盘 CPU忙吗

利用率不高

看下 tikv detail – raft propose – apply的监控延迟

企业微信截图_16805878392969

pd调度有没有报timeout的错误。

  1. 把pd和tikv的日志信息发上来吧,来找找茬
  2. 提供监控的时候,最好都提供同一问题时间段的

miss-region 的监控能截图吗 ,从出现问题前到现在的