tidb集群有一个节点一直重启

【 TiDB 使用环境】 Poc
【 TiDB 版本】5.2.1
【遇到的问题:问题现象及影响】
tidb用的是docker管理,3节点tidb集群,其中有某个节点在运行一段时间后,一直重启,经查tidb日志发现如下


tidb的配置中
socket = = “/tmp/tidb-{Port}.sock”
我需要手动删除这个文件后,才能正常启动成功
1、什么原因导致tidb停止
2、生命原因导致tidb启动失败
【附件:截图/日志/监控】

有做过什么操作,或者遇到别的异常没

可能是由做过重启tidb的docker的操作,具体的操作,没有记录了,这个测试环境在用自动化做异常测试

请教下,你在 docker 上咋玩的 tidb :smiley_cat:

是否之前发生了tidb的非正常关闭的情况,如果tidb异常关闭,该文件没有被自动删除,导致了该情况

哪应该是异常操作导致server没有正常停止,导致sock文件没有删除

你看系统日志 有没有oom

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
看下你的配置情况?

你这个不是监听的ip启动的吗?难道ip冲突了?是docker还是k8s?

你是纯docker运行?不是k8s?

纯docker运行

是纯docker,ip没有冲突,是不是上次异常退出,导致这个.socket文件没有删除

没有oom

确实有可能是这种情况

你这个版本看着是5.2.1,好像是不推荐用了,有大bug,要么就换个别的稳定版本

反复出现吗,还是就这一次因这个文件重启

应该是异常导致服务器临时目录/tmp/tidb下对应的节点文件不能被删除,tidb再次重启的时候认为端口已经被占用了,无法正常启动

日志感觉挺清晰了。因为端口被占用了,netstat -nltp | grep 端口
查看是哪个进程占用了端口,我没玩过docker,单机通常都是存在其他进程占用,看看没用就kill掉,不行就换端口。

后面问题解决了吗?解决的话,分享下是怎么解决的?看日志是地址正在使用中