失败的cdc同步任务阻塞gc

【 TiDB 使用环境`】生产环境
【 TiDB 版本】5.1.0
【问题现象及影响】
早期集群曾经使用ticdc组件同步数据到kafka,后来cdc废弃之后没有缩容。
近期偶然发现集群的数据量有些不正常,备份出来只有十几GB但是磁盘占用高达3TB。
于是查找了一下原因,发现是gc进程无法推进gc safepoint,看了下cdc changefeed list的这个同步停止的checkpoint与gc safepoint停止的时间一致。
尝试直接remove changefeed发现显示删除成功实际隔几秒重现回来,现在把cdc组件直接缩容后重启了gc leader的tidb节点,发现gc leader切换后gc依旧无法推进,看日志像是gc依旧被阻塞。
现计划直接重启整个tidb组件,如无效则计划重启整个集群。

但是业务对集群可用性要求较高,因此想先请教下如果只重启tidb组件或pd组件是否可以处理此问题。

如果集群中已经移除 TiCDC 组件,可以直接使用以下命令清除 TiCDC 遗留的 service gc safepoint:

tiup cdc:v5.1.0 cli --pd=<PD_ADDRESS> unsafe reset
1 个赞

感谢回复,我试一下。
这样就可以移除gc阻塞了吗,还需要提个issue吗,以前有过此类问题吗?

请问一下 这个unsafe reset 是只清理cdc 的gc信息吗?