每十分钟 tikv 的机器 CPU 就飙升(从 20-250%）

TiDBer_hhRXox5e · 2025 年7 月 30 日 03:53

【TiDB 使用环境】生产环境
【TiDB 版本】V7.1.0
【操作系统】
【部署方式】tiup 物理机
【集群数据量】45TB
【集群节点数】
【问题复现路径】
【遇到的问题：问题现象及影响】
每十分钟 tikv 的机器 CPU 就飙升一次，同时主机负载也从 5% 飙升到 40%
【资源配置】

【复制黏贴 ERROR 报错的日志】
【其他附件：截图/日志/监控】

Miracle · 2025 年7 月 30 日 04:47

第一张图里的QPS是不是也是10分钟一次飙升？

_奉小南 · 2025 年7 月 30 日 04:49

看qps的飙升周期与cpu是一致的，看看有没有对应的定时任务。或者看看对应的期间的sql

_奉小南 · 2025 年7 月 30 日 04:50

看看dashboard里的这几个页面

db_user · 2025 年7 月 30 日 05:39

十分钟应该是gc的时间，可以看下与gc时间是否对应

TiDBer_hhRXox5e · 2025 年7 月 30 日 05:41

是在执行 GC，这个集群是新建的，用 CDC 导入数据完毕，还没有业务流量，GC 会把 CPU 突然拉这么高吗

Kongdom · 2025 年7 月 30 日 06:02

会不会是有其他定时作业？

TiDBer_hhRXox5e · 2025 年7 月 30 日 06:20

目前集群是新建的，没有任何业务流量。在独立的新机房

db_user · 2025 年7 月 30 日 06:25

你的tikv是混布的吧，一台机器几个tikv,一共多少个kv,当前单个kv的数据量多少，region总量多少，如果很多的话也是有可能的

TiDBer_hhRXox5e · 2025 年7 月 30 日 06:31

一个物理机的规格是 80C 768G 4 * 3.84Tnvme，运行了 4 个 TIKV 节点，都做了 NUMA 绑定和 CORES 绑定。

当前的 regions

单个 kv 存储的数据量是 1.2TB

下面是 CPU用量截图

db_user · 2025 年7 月 30 日 08:09