v6.5.3版本gc不能正常推进

du拉松 · 2023 年7 月 27 日 01:19

【 TiDB 使用环境】生产环境
【 TiDB 版本】从v5.4.0升级到v6.5.3
【复现路径】ticdc中存在changefeed，直接remove changefeed后，缩容相关ticdc节点，发现20多个小时没有gc。
【遇到的问题：问题现象及影响】现在是gc不能正常推进，在gc leader中发现如下的相关日志:[2023/07/27 08:53:26.921 +08:00] [INFO] [gc_worker.go:625] ["[gc worker] there's another service in the cluster requires an earlier safe point. gc will continue with the earlier one"] [uuid=625ddd430bc000a] [ourSafePoint=443111232467894272] [minSafePoint=443110872819695626] [2023/07/27 08:53:26.921 +08:00] [INFO] [gc_worker.go:601] ["[gc worker] last safe point is later than current one.No need to gc.This might be caused by manually enlarging gc lifetime"] ["leaderTick on"=625ddd430bc000a] ["last safe point"=2023/07/26 09:10:34.914 +08:00] ["current safe point"=2023/07/26 09:10:34.914 +08:00]
查看service-gc-safepoint可以看到有ticdc的相关safepoint：

{
  "service_gc_safe_points": [
    {
      "service_id": "gc_worker",
      "expired_at": 9223372036854775807,
      "safe_point": 443111201010876416
    },
    {
      "service_id": "ticdc-default-4589598632202768367",
      "expired_at": 1690420235,
      "safe_point": 443110872819695626
    }
  ],
  "gc_safe_point": 443110872819695626
}

但是扩容后ticdc，查看cdc中，没有changefeed的相关列表。
【资源配置】
【附件：截图/日志/监控】

裤衩儿飞上天 · 2023 年7 月 27 日 01:25

cdc 默认 gc-ttl是24小时，可参考： TiCDC 常见问题解答 | PingCAP 文档中心

h5n1 · 2023 年7 月 27 日 01:28

tiup cdc:v5.1.0 cli --pd=<PD_ADDRESS> unsafe reset
这会清除cdc任务，不过你cdc都干掉了也没啥影响

du拉松 · 2023 年7 月 27 日 01:31

嗯嗯，查看cdc列表中是没了，但是看service_gc_safe_points还是有。
执行完：tiup cdc:v6.5.3 cli --pd=http://172.16.105.24:2379 unsafe reset后再查看service_gc_safe_points就没了；然后查看gc leader就正常的日志了。
但是不知道为什么会出现这种情况。

system · 2023 年9 月 25 日 01:32

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。