一个tikv节点gc worker cpu参数在几分钟内持续达100%,同时延迟高QPS低是这个参数高问题导致的吗?

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】3tikv 3pd 3tikv
【复现路径】有几分钟时间一个tikv节点的GC WORKER CPU高达100%,此时延迟上升QPS降低,此时的GC WORKER CPU高达100%是导致此时延迟上升QPS降低的原因吗?如图所示:
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】



kv 节点什么配置?

tikv几个cpu啊?就gc worker占了一个就对其他线程造成影响了,不至于吧。。。

1 个赞

不会是机械盘吧?

一个就搞慢了,那集群配置资源,低了呢

1 个赞

固态硬盘

64G 32C 固态硬盘

32核CPU

看一下tikv监控中Thread CPU哪里,对应时间点的其他线程,我估计不是gc一个线程高了,应该是当时有其他线程直接把cpu跑满了

gc一般不怎么吃资源的,可能其他问题

32C,就是吃掉一个C,还剩 31呢…

这延迟不算高 可以查下那个时间段所有服务器的资源利用情况和慢查询

图上100%是指的线程,一个C跑满了,觉得是tikv慢,看下tikv-details> Thread CPU>Unified read pool CPU,是不是tikv读满了

应该是的

是混合部署的吗?

不是,都是单独部署的。

tikv_gc_life_time 360h 15天这个是临时改的,还是一直都是这样?
tikv_gc_safe_point 20230903
tikv_gc_last_run_time 20230918
gc的数据太多,把监控放长些,看看30天有没有类似的情况

tikv_gc_life_time 360h 15天这个是临时改的,还是一直都是这样? 之前是3个月,最近慢慢改为15天的,最近改为1天的。就是最近1个星期开始这个情况的,之前没有。