tidb集群不停机版本升级（v6.5.0->v7.5.3)，出现cdc任务的时间戳异常穿越到4199年

vcdog · 2024 年10 月 16 日 01:08

【 TiDB 使用环境】生产环境
【 TiDB 版本】版本升级v6.5.0->v7.5.3
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
昨天晚上进行了整个主库集群的升级（v6.5.0->v7.5.3）
1、升级过程中，一切顺利，升级结束后，reload整个集群。
2、检查各组件服务状态运行一切正常。
3、通过脚本检查cdc的任务同步状态也是normal。
今天到公司打开grafana的监控页面，发现出现了如下图的穿越时间：

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

想问下各位大佬，有没有遇到过类似的问题。

像风一样的男子 · 2024 年10 月 16 日 01:16

没有获取到tso就会显示成4199年

小龙虾爱大龙虾 · 2024 年10 月 16 日 01:16

这个正常的，这个是执行ddl ，或者开上下游对齐功能的时候就会用到的，https://docs.pingcap.com/zh/tidb/v8.3/ticdc-architecture#barrier-ts

vcdog · 2024 年10 月 16 日 01:23

vcdog · 2024 年10 月 16 日 01:29

目前来看，不影响cdc的任务正常同步。就是看着这个时间有点异常。如何能让这个时间回到正常时间，是不是只有缩容再扩容prometheus或grafana呢

小龙虾爱大龙虾 · 2024 年10 月 16 日 01:36

现在这种 4199 年就是正常的，意思是不阻塞 cdc 执行各种东西，当它变小时，用来阻塞大于它 commit ts 的事务复制，用来对其同步点位
PS:如果你就是看着这个监控不顺眼，就自己改下表达式就好了，扩缩容没有用的

vcdog · 2024 年10 月 16 日 02:05

那就先不调整了，等再升级另外一套主库集群里，再看看有没有类似的问题。
当前升级的这套集群角色比较特殊，既是上游主库的从库，又是下游3套从库的主库。

kevinsna · 2024 年10 月 16 日 05:08

那这个最终会跳回到正常的时间么？

小龙虾爱大龙虾 · 2024 年10 月 16 日 07:40

有需要的时候会自动变的，你去看下前边发的那个链接

mono · 2024 年10 月 16 日 08:20

是原有集群上升的，还是通过cdc同步升级的？

vcdog · 2024 年10 月 16 日 10:06

已经确认是tidb的bug。升级v7.5.4后，这个监控展示问题正常。

zhanggame1 · 2024 年10 月 17 日 01:56

我这个7.5.2版本重启了下cdc就这样了，不过没啥影响

vcdog · 2024 年10 月 17 日 02:09

建议升级到v7.5.4版本，这个时间展示问题，会自动修复。