监控发现GC停止工作:TiKV_GC_can_not_work

【概述】:监控报警GC无法正常工作:TiKV_GC_can_not_work

【背景】:0、问题期间数据库侧无任何操作;
1、根据官网解决方法,见附件一图,找出GC leader,通过grep gc_worker tidb.log 查看GC情况,发现是在做start delete ranges,见附件二图,符合官网的说法,但是报警仍然不断。
2、查看集群GC参数,详见附件三图,发现gc_safe_point许久未更新,但查看infomation_schema.cluster_processlist,未发现长时间未完成的SQL。

【现象】:长时间无gc,可能导致垃圾数据增多,影响集群整体性能

【问题】:持续报警近一周,无法解决

【业务影响】:目前暂无业务影响

【TiDB 版本】:v4.0.8

【附件】:



1 Like

检查一下集群启用cdc了没有,tiup cluster display clustername

启用了cdc,也是问题时间点附近投上去的。

cdc 任务停止之后,会导致gc不正常。 例如,3点cdc某个任务停止,gc就会无法释放3点之后的数据。

把停止的任务启动,或者删除可以解决这个问题。

非常感谢,问题时段是有个cdc任务因为权限问题中断,中断后过了不久就出现了这个gc问题,今天我们把这个cdc任务恢复后再看看这个GC问题是否解决,多谢!

不客气

您好,再请教一下,我们创建了一个cdc任务发现有问题后remove --force,结果如下两条报警,官网没相关处理说明,麻烦看一下,多谢。


此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。