TiDB 的问答社区

PD_cluster_slow_tikv_nums告警问题

🪐 TiDB 技术问题

tidb小白 (Ti D Ber Emsp S Ckm) 2025 年3 月 7 日 01:56 1

【TiDB 使用环境】生产环境
【TiDB 版本】8.5.1
【操作系统】centos7.9
【部署方式】私有云
【集群数据量】
【集群节点数】6
【问题复现路径】无
【遇到的问题：问题现象及影响】你好，我这边搭建的TIDB集群，每天早上9点多都会出现PD_cluster_slow_tikv_nums的告警问题，查看store Slow score指标，发现一个节点的得分，差不多在100左右。从SQL语句分析那里，查到每天都会一张28万左右数据的表，会进行delete全表，再insert的操作，tidb也自动执行了ANALYZE TABLE语句，想知道，这个告警，和这几个操作有关系吗

【资源配置】

【复制黏贴 ERROR 报错的日志】
【其他附件：截图/日志/监控】

xfworld (魔幻之翼) 2025 年3 月 7 日 02:40 3

那是不是只有这一个节点，会出现这个问题，其他两个节点未受影响？
你需要查下关联的表了，如果是只有一个节点有影响，可能是热点问题

tidb小白 (Ti D Ber Emsp S Ckm) 2025 年3 月 7 日 02:43 4

今天是这个节点，昨天不是这个，每天都有一个或者两个节点这样。持续时间也都是10-20分钟
根据是否热点问题的判断方法，查了监控，这个时候写的CPU的也没有高于其他节点，反而store slow score得分最高的节点，CPU是最低的

h5n1 (H5n1) 2025 年3 月 7 日 03:08 5

看下你的磁盘性能，overview页面就有

tidb小白 (Ti D Ber Emsp S Ckm) 2025 年3 月 7 日 03:18 6

h5n1 (H5n1) 2025 年3 月 7 日 03:23 7

云盘吗，稍微有点IO 延迟就上来了

tidb小白 (Ti D Ber Emsp S Ckm) 2025 年3 月 7 日 03:40 8

不是云盘。咱们的自己机房的，宿主机的硬盘还是SSD的

h5n1 (H5n1) 2025 年3 月 7 日 07:11 9

我这的普通ssd

1 个赞

乡在人间 (Ti D Ber Ki Nyc B Fs) 2025 年3 月 7 日 14:12 10

出现PD_cluster_slow_tikv_nums告警的原因可能有多种，下面的几个都需要排查一下：

硬件资源限制：如果某个或某些TiKV节点所在的机器CPU、内存、磁盘I/O或网络带宽等资源使用达到瓶颈，可能会导致该节点响应变慢。
配置问题：不合适的TiKV配置参数（如raftstore相关配置、rocksdb配置等）可能导致性能不佳。
热点问题：数据分布不均造成某些TiKV节点成为读写热点，处理请求过多而变慢。
网络延迟：节点间网络延迟高或者不稳定也可能导致TiKV节点响应速度下降。

沧海一声笑 (Ti D Ber Z5y Lx U Kc) 2025 年3 月 8 日 04:48 11

考虑将全表的DELETE 和INSERT 替换为批量操作，或者使用TRUNCATE TABLE 替代DELETE，因为TRUNCATE 操作不记录单个行的删除，因此速度更快且对事务日志的压力更小

Kongdom (Kongdom) 2025 年3 月 10 日 09:05 12

可以用测试工具测试一下，宿主机是SSD，分配的不一定是好的。
https://docs.pingcap.com/zh/tidb/stable/deploy-and-maintain-faq/#如何用-fio-命令测试-tikv-实例的磁盘性能

©2023 TiDB Community. 京ICP备20022552号-5 京公网安备11010802043344号