TiDB v5.3.0, 在gc正常推进的情况下 告警tikv gc can not work

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
【概述】场景+问题概述

DB在GC正常推进的情况下,总是告警 tikv gc can not work

【背景】做过哪些操作
【现象】业务和数据库现象

DB正常使用,查看监控gc 在正常推进,但是会一直告警 gc can not work

sum(increase(tikv_gcworker_gc_tasks_vec{task=“gc”}[1d])) < 1 and (sum(increase(tikv_gc_compaction_filter_perform[1d])) < 1 and sum(increase(tikv_engine_event_total{db=“kv”, cf=“write”, type=“compaction”}[1d])) >= 1)

【业务影响】

DB总是有告警信息

【TiDB 版本】
v5.3.0
【附件】

2 个赞

这个我看过了,跟他的情况不一样。这边没开ticdc,而且下面的gc时间也是在正常推进的,db 是utc时间

1 个赞






有没有可能是因为,db 自身没有业务,导致的监控获取gc task数量不达标,才触发的告警

1 个赞

不会的,可以看一下 gc leader 对应的 TiDB server 的日志,看看gc worker 是否在执行。看一下最近一次的日志是什么时候。

1 个赞


看了没有问题,严格的10分钟一次

1 个赞

如果pd leader 切换过,会有这种问题吗?

1 个赞

pd leader 切换会影响这个调度过程的
切换完成以后,仍然会按照设定的方式继续发起调度…

除非切换失败…

1 个赞

切换失败可能出现这样的情况

1 个赞

有切换失败么?

没有切换失败, 这个实例是从v4.0.14 升级上来的!有没有可能是这个原因, 而且这个告警从昨天开始自动没了

  1. 之前是完全没有任何任务吗? 这个库是空的?
  2. 现在没有告警了,是开始使用了吗? 参考文档,看下 https://docs.pingcap.com/zh/tidb/stable/alert-rules#tikv_gc_can_not_work

不是说没有任何业务,只是业务量比较少!业务没有做任何改动,这个告警就是自己没了

这几天从有告警到没有告警了,完整的gc leader上的 tidb.log 日志上传下。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。