【 TiDB 使用环境`】生产环境
【 TiDB 版本】5.1.0
【问题现象及影响】
早期集群曾经使用ticdc组件同步数据到kafka,后来cdc废弃之后没有缩容。
近期偶然发现集群的数据量有些不正常,备份出来只有十几GB但是磁盘占用高达3TB。
于是查找了一下原因,发现是gc进程无法推进gc safepoint,看了下cdc changefeed list的这个同步停止的checkpoint与gc safepoint停止的时间一致。
尝试直接remove changefeed发现显示删除成功实际隔几秒重现回来,现在把cdc组件直接缩容后重启了gc leader的tidb节点,发现gc leader切换后gc依旧无法推进,看日志像是gc依旧被阻塞。
现计划直接重启整个tidb组件,如无效则计划重启整个集群。
但是业务对集群可用性要求较高,因此想先请教下如果只重启tidb组件或pd组件是否可以处理此问题。