tikv线程突增

【版本】v5.2.1 ARM平台
空闲的系统,发下tikv thread cpu中raft sotre\gRPC\rocksdb线程出现突增的情况,看时间点和gc时间比较一致。启用gc compaction filter后不是不走raft消息了吗,为什么这里会有比较高的突增。(检查过另一套空闲系统没有出现这种在gc时线程cpu突增的情况)


以下为另一系统

1 个赞

默认 GC 时间应该是 10min,现在看监控应该是 30min 左右,麻烦确认一下,有没有什么定时任务 ?

gc interval是调整到30分钟了

能否通过 metrictools 工具导出一下 tikv-details 监控,我们再看一下哈。

tidb_btjh-TiKV-Details_2021-11-01T04_05_57.553Z.json (1.2 MB)
见附件

没有数据,应该是在截取时候,监控数据没有刷出来导致的。重新试一下哈

tidb_btjh-TiKV-Details_2021-11-01T09_12_05.141Z.rar (288.5 KB)

GC compaction filter 是在 GC 最后阶段发生的。所以 Raft 的消息传输是必然存在。在空闲的系统里面,还是会有 GC 发生,并且在 resolve lock 阶段,会进行 scan lock 操作,会唤醒静默 region 完成一轮 raft 消息产出,会使用大量的 raft CPU,从而看到 GC 时间和 CPU 突起的间隔吻合的情况。这个是预期的现象,不用在意。对于业务影响也是相对可控的状态,在高负载情况下,compaction filter 开启对于业务的维稳是比较明显的。建议可以加一些压力测试一下。

官方能否针对 GC compaction filter 写个比较详细的博客文章

暂时没有,可以内部确认一下哈。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。