Pending_peer_region_count 报警

背景

如题,最近在往tidb集群中灌入我们的线上数据,验证数据。但是在灌数据的过程中,常常出现pending_peer_region_count的报警。

集群配置

三台 4CPU 8G SSD500G

  • TiBD1 - PD,TiKV
  • TiBD2 - PD,TiKV,TiDB
  • TiBD3 - PD,TiKV,TiDB

有几个问题想了解清楚的

  • 1、pending_peer_region_count含义是什么,应该怎么处理
  • 2、peer是指什么,看到在文档中大量出现这个词,但是没有找到peer指的是什么,看监控比较迷惑。我可以理解为region的副本吗,也就是follower的意思。pending_peer_region_count就理解为等待同步的副本数量
1赞
  1. pending_peer_region_count : 有 pending peer 的 region 数,副本日志落后的 peer 数量 阈值:100 ,超过 100 就会告警。
  2. peer 指 region group 中的副本
  3. 如果出现 pending_peer_region_count 需要关注写入瓶颈,导致副本的 raft log 延迟比较高。可以关注一下 tikv 的几个监控情况:
  4. schedule worker CPU 负载
  5. raft store CPU 和 apply log CPU 情况
  6. region 调度情况。

region group 是raft group吗,看了文档和视频都没有找到region group 的概念,指看到有raft group的概念

1 个 region group 默认配置的就是包含 leader,2 个 follower ,他们遵循 raft 算法。这个和 raft group 可以理解为一样的。

明白了