【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v7.1.3
【复现路径】
通过scale-out, scale-in的方式对pd的节点进行了迁移操作, 将pd实例由原来的 46.121, 46.122, 46.123 迁移至 46.21, 46.22, 46.23
【遇到的问题:问题现象及影响】
迁移成功后,集群看起来一切正常,但是今天凌晨出现ticdc所有实例突然全部重启的问题,查看日志后发现所有ticdc实例都突然尝试去连接旧的pd地址,导致连接失败,然后自动重启,重启之后又恢复正常了。 看了重启之后的cdc的日志,里面还是可以看到旧的pd地址的相关信息,详细看下面的截图。
即使是把所有cdc全部scale-out,再重新sacle-in 进来, cdc启动日志中还是能看到旧的pd地址信息
【附件:截图/日志/监控】
当前PD信息:
CDC启动时的日志,前面看到连接了新的pd地址 46.21-23, 后面还是能看到46.121-123的日志信息:
cdc安装目录下scripts有这个文件run_cdc.sh,可以看下内容,和stat看下时间戳
启动参数都检查过了,没问题,都已经切换到新的pd地址,没有看到配置文件中有任何和老地址相关的信息
确定配置文件没动过,而且cdc的节点都已经重新缩容再扩容了,日志中还有残存的旧的pd信息
tiup cdc cli changefeed update 试试?
和changefeed没关系,空实例,没建changefeed,日志里还有老的pd实例的地址信息
WalterWj
(王军 - PingCAP)
11
扩缩容完成 pd 之后,做一下集群 reload。tiup cluster reload cluster-name -y
kevinsna
(Ti D Ber P O Zcnp Ja)
12
可以考虑在tidb集群的部署目录下,通过grep -r -i -l 旧pd的地址 ./ 看下是否还有包含了旧pd地址的配置文件,如果没有的话,考虑reload下tidb集群试试
整个集群都安排reload过了,cdc日志里还是有老的pd的地址信息
整个部署目录都搜过了,没有旧的地址信息,reload集群后,cdc的日志里还是有老的pd地址信息
WalterWj
(王军 - PingCAP)
15
脚本里面已经没有了?但是启动日志还有? 不应该啊。
pa aux |grep cdc 看下启动进程内容。