down-peer-region-count和pending-peer-region-count很多如何排查处理

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
image
【概述】 场景 + 问题概述
报表业务 每天晚上有很多删除数据导入数据脚本 有drop create chuncate insert操作

11月26号临晨发现tiKV夯住了 02:53分和59分分别重启了其中两台TIKV节点 然后26号凌晨开始每天都有400个左右down-peer-region-count和pending-peer-region-count,empty-region-count之前也是不变的 重启了两个tikv后也开始每天凌晨开始增加400左右 经过排查发现是因为有chuncate 引起的空region 昨晚把chuncate脚本改成delete 今天看监控没有产生太多空region了 但是down-peer-region-count和pending-peer-region-count还是增加了400个左右没有变化 奇怪的现象 没重启两个tikv之前脚本就一直用chuncate的 都没有产生空region

请问应该如何排查 down-peer-region-count和pending-peer-region-count是哪个表产生的 为何有出现这种现象呢
【背景】 做过哪些操作
11月25号晚上发现tiKV夯住了 重启了其中两台TIKV节点
【现象】 业务和数据库现象
暂未影响业务 只是down-peer-region-count和pending-peer-region-count每天凌晨都在增加


【问题】 当前遇到的问题
目前更改了两个region多的大表的chuncate操作改为delete 空region从每天增加400左右降低到几十个
但是down-peer-region-count和pending-peer-region-count还是增加那么多没变化
请问应该如何排查 down-peer-region-count和pending-peer-region-count是哪个表产生的 为何有出现这种现象呢
【业务影响】

【TiDB 版本】
V4.0.11
【应用软件及版本】

【附件】 相关日志及配置信息

  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息

监控(https://metricstool.pingcap.com/)

新附上11月26号重启13上的TIKV 前后1小时左右的日志 13是[2021/11/26 02:53:11.528 +08:00]差不多这个时间点重启的
tikv.log.2021-11-26-12:05:19.726879660 (60.0 MB)

PD 11月26号对应的日志
pd.log (27.3 MB)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

3 个赞

pending-peer-region-count 是调度时产生的 少量不影响

3 个赞

1)集群只有3个tikv节点,重启了两个tikv,是怎么重启的?
2)有没有当时的日志,tikv和pd的?

1 个赞

检查一下tikv之间网络带宽是否足够

1 个赞

systemctl restart tikv-20160.service 先重启的13的TIKV 然后重启14TIKV

当时是在导数据 load 然后把TIKV夯住了 有schema error 报错 重启恢复了

2 个赞

您好 11月26号日志已传到 日志模块位置

1 个赞

您好 带宽够的 是26号02:50多分的时候重启了其中两台 TIKV节点后才开始出现空region增加 以及 down-peer-region-count和pending-peer-region-count增加 之前都是保持水平的不变的

1 个赞
config set max-pending-peer-count 64

查询下这个设置,然后可以适当调整一下,在观察是否有缓解。

调整了这个参数之后,没有任何变化

这种情况 可以通过pd-ctl 查看一下region的状态, ```
region check

现在新建表,写入数据之后, regions的leader集中在两个tikv节点(13,15)上,另外一个tikv节点(14)上新增的region全是pending状态

1 个赞

从表TIKV_REGION_PEERS里查看,新的region的状态都是pending

是否可以重启问题节点在观察?

已经重启过了

把重启过后,问题节点的日志发一下

当天重启的问题日志,已经放上来了,在上面

pd-ctl 查询状态发一下

具体命令发下?

region check pending-peer

store

看起来是down peer 和pending peer 在同一store导致的,可以尝试按照这个办法试一下。
https://docs.pingcap.com/zh/tidb/v4.0/tikv-control#设置一个-region-副本为-tombstone-状态

1 个赞