TiDB v5.3.0, 在gc正常推进的情况下告警tikv gc can not work

kkpeter · 2022 年3 月 30 日 06:03

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】
【概述】场景+问题概述

DB在GC正常推进的情况下，总是告警 tikv gc can not work

【背景】做过哪些操作
【现象】业务和数据库现象

DB正常使用，查看监控gc 在正常推进，但是会一直告警 gc can not work

sum(increase(tikv_gcworker_gc_tasks_vec{task=“gc”}[1d])) < 1 and (sum(increase(tikv_gc_compaction_filter_perform[1d])) < 1 and sum(increase(tikv_engine_event_total{db=“kv”, cf=“write”, type=“compaction”}[1d])) >= 1)

【业务影响】

DB总是有告警信息

【TiDB 版本】
v5.3.0
【附件】

相关日志和监控

image2684×1046 207 KB

image2860×1042 285 KB
对应模块日志（包含问题前后1小时日志）

kkpeter · 2022 年3 月 30 日 06:56

这个我看过了，跟他的情况不一样。这边没开ticdc，而且下面的gc时间也是在正常推进的，db 是utc时间

kkpeter · 2022 年3 月 31 日 06:48

有没有可能是因为,db 自身没有业务，导致的监控获取gc task数量不达标，才触发的告警

Lucien-卢西恩 · 2022 年3 月 31 日 09:07

不会的，可以看一下 gc leader 对应的 TiDB server 的日志，看看gc worker 是否在执行。看一下最近一次的日志是什么时候。

kkpeter · 2022 年3 月 31 日 10:11

看了没有问题，严格的10分钟一次

kkpeter · 2022 年3 月 31 日 10:13

如果pd leader 切换过，会有这种问题吗?

xfworld · 2022 年3 月 31 日 10:26

pd leader 切换会影响这个调度过程的
切换完成以后，仍然会按照设定的方式继续发起调度…

除非切换失败…

边城元元 · 2022 年3 月 31 日 14:34

切换失败可能出现这样的情况

数据小黑 · 2022 年4 月 1 日 06:39

有切换失败么？

kkpeter · 2022 年4 月 2 日 02:19

没有切换失败，这个实例是从v4.0.14 升级上来的！有没有可能是这个原因，而且这个告警从昨天开始自动没了

yilong · 2022 年4 月 2 日 10:57

之前是完全没有任何任务吗？这个库是空的？
现在没有告警了，是开始使用了吗？参考文档，看下 https://docs.pingcap.com/zh/tidb/stable/alert-rules#tikv_gc_can_not_work

kkpeter · 2022 年4 月 2 日 11:24

不是说没有任何业务，只是业务量比较少！业务没有做任何改动，这个告警就是自己没了

yilong · 2022 年4 月 3 日 04:58

这几天从有告警到没有告警了，完整的gc leader上的 tidb.log 日志上传下。

system · 2022 年10 月 31 日 19:25

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。

TiDB v5.3.0, 在gc正常推进的情况下 告警tikv gc can not work

TiDB v5.3.0, 在gc正常推进的情况下告警tikv gc can not work