【tidb集群启动失败】tidb集群已经部署成功，但是启动tidb集群报错

xiaotiaop · 2022 年3 月 18 日 09:17

【 TiDB 使用环境】集群模式虚拟机 centos7
【概述】场景+问题概述

部署tidb集群成功，但是启动tidb集群时会报错，响应时间超长，我目前有三台虚拟机一台作为中控机部署tidb及tikv等-103 ，另两台作为tidb部署 104 106。部署时全部成功但是启动集群时报错，

[timed out waiting for port 4000 to be started after 2m0s]，试了一下论坛各种解决办法没有起效。

望解答

【背景】挂载参数及安装软件环境完成本地部署单机测试集群成功网络无问题远程无问题
【TiDB 版本】5.4

部署：

启动后报错信息

日志查询信息

tail详细日志

查看104节点发现tidb已经启动

运行状态

banana_jian · 2022 年3 月 18 日 09:46

系统日志有没有什么提示呢比如OOM？系统的资源情况还好么

caiyfc · 2022 年3 月 18 日 09:48

检查一下网络和端口问题。上次我遇到同样的问题，是因为端口被占用了

dengqee · 2022 年3 月 18 日 10:08

检查一下tidb服务是否在监听4000端口，虽然systemd显示启动，但是可能它并没有在监听4000端口，tiup部署实例时是通过查看4000端口是否被监听来判断该组件是否被启动成功

边城元元 · 2022 年3 月 18 日 22:42

tidb集群有自启动的功能。可能当时有冲突

Fly-bird · 2022 年3 月 19 日 02:33

netstat -anp |grep 4000，看看4000端口有没有被占用

YuchongXU · 2022 年3 月 19 日 08:43

端口，检测防火墙

dbaspace · 2022 年3 月 19 日 12:51

之前遇到你这类似问题，就是之前部署过集群没清理干净，又重新搞或者非常规操作过，实际你启动的4000端口是另外一套的，因此通过systemctl查看状态有，实际并没有存活端口，

Hi70KG · 2022 年3 月 19 日 12:53

建议安装之前先check一下，查看是否有什么地方配置不正确，如果有fail处，再次check一下，可以修复部分fail，直到没有fail为止
tiup cluster check ./topology.yaml --apply --user root -p （PS：yaml文件是安装部署文件以你部署的文件为准）
以下是和你一样用虚拟机部署的tidb集群，仅供参考，希望对你有帮助

xiaotiaop · 2022 年3 月 21 日 00:59

系统资源都没问题没有oom错误 top查看资源占用也不多而且主服务103启动成功，104 106没有启动成功

xiaotiaop · 2022 年3 月 21 日 01:01

之前确实部署过当时是可以连接到104 但是在做暴力测试之后（杀进程在启动查看数据、直接重启服务器模拟宕机）就启动失败。删除了（destory）原集群之后重新部署就出现了这样的问题。不知道怎么彻底清除呢？

xiaotiaop · 2022 年3 月 21 日 01:26

您好您提到的这个怎么查询或者解决呢？我在104 106的默认情况下 4000端口没有启动，在部署集群后已经查询过了，在启动集群后两台服务器的端口才进行启动的。

xiaotiaop · 2022 年3 月 21 日 02:27

查询103-4000端口

查询104 -4000 端口
106也做了同样查询没有发现占用，至于您说的网络问题具体怎么排查呢？我通过ssh连接都是没问题的

xiaotiaop · 2022 年3 月 21 日 02:40

端口未占用三台虚拟机防火墙都已关闭

xiaotiaop · 2022 年3 月 21 日 03:23

您好，这个怎么判断是否在监听呢，查了一下文档和操作手册没有相关的内容。目前来看应该是之前部署过但是没有清理掉启动的是之前部署的集群的 4000端口，主集群我已经进行了destory。

dengqee · 2022 年3 月 21 日 03:35

ss -ltn | grep 4000

dbaspace · 2022 年3 月 21 日 08:45

看来你和当时一样的问题，当时具体操作流程忘记了，貌似journalctl 观察日志停止现在的已经启动的服务，tidb-4000.service 进行 disable ，修改脚本启动现在现在的然后操作systemctl enable tidb-xxx.service 大概是那么搞

xiaotiaop · 2022 年3 月 22 日 02:17

通过检测后修改部分参数目前检测除了data dir问题无法排除之外没有其他问题

xiaotiaop · 2022 年3 月 22 日 02:39

重试部署启动集群并且修改tidb端口发现tikv可以启动（大概率排除网络问题）启动tidb失败
端口号没有占用。
之前确实在104部署过一套之后进行了数据库destory 再次部署就报错，找不到标准的清理手段和方式。
104端口：
报错信息：

Fly-bird · 2022 年3 月 22 日 02:42

看看清除下集群的tidb-server，再重新部署tidb-server
1、查看集群状态tiup cluster display 集群名
2、找到tidb的那行，ip：port tidb
3、停止tidb # tiup cluster stop 集群名 -N ip:port
4、清除tidb节点# tiup cluster scale-in 集群名 --node ip:port
5、清理集群# tiup cluster prune 集群名
–重新增加tidb-server节点