tidb 连不上pd,但是pd是启动了

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】
v.4.0.0
【问题描述】
tidb 连不上pd,pd启动的,pd 连不上tidb

pd 日志:


tidb 日志


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

tikv 日志

  1. TiUP cluster display <集群名称>. 看看哪些节点有问题?
  2. 启动顺序是 PD—>TiKV------>TiDB , 先看看 TiKV 是否都正常。


进程启动起来的,这个看都是down

  1. 这个集群看起来是在 root 用户下? tiup cluster list 执行看下
  2. 进程在 tidb 用户下启动的?su 到 tidb 用户 tiup cluster list 看下,是否也部署了集群?
  3. 尝试 start 集群看看报什么错。

我就是用root 账号操作的,没有用tidb 账号.


![image|690x220](up load://fcGOf9HWU49YzzISOiZzs1GjE1c.png)

目前都没有启动,先启动,看看 pd 能否启动,如果不行,看下 pd 报什么错。

pd 日志

tidb 日志

tikv_stderr.log日志


tikv 日志

  1. 看您的日志和display的信息感觉匹配不上。
  2. 这个环境是测试环境吗? 会有很多人使用,或者部署多个 tidb ?试试到这个服务器目录下找到 script 目录,手工查看 run_tikv.sh 脚本,已经 systemd 目录下的启动文件,上传看下。
  3. 如果是测试环境,没有什么数据,能否考虑destroy 重新安装?

不好意思,上面的图片我传的是测试环境,最开始那个图片我传的是华为云的环境,这两个环境报的错都是一样的。
测试环境还有很多初始化数据在里面,需要导出来,导出后考虑重装。
本地环境 run_tikv.sh 脚本内容如下,

systemd 目录下启动文件是指哪一个?
我看到pd,或者tidb

  1. tiup cluster start <集群名称>
  2. tiup cluster display <集群名称>
  3. 如果 PD ,没有启动,麻烦反馈看到的 debug 报错日志和 PD 日志,辛苦直接上传日志,不要截图了。
  4. 如果 PD 能够启动,tikv 无法启动,就上传 debug 和 tikv 日志,多谢。

tiup cluster start <集群名称>

tiup-cluster-debug-2021-05-26-15-19-18.log (831.1 KB) tikv_stderr.log (126 字节) tikv.log (1.9 MB) pd.log (15.2 KB)

这个集群发生问题前有过哪些操作?麻烦详细说明下。display 展示的 pd 是 192.168.31.8:2379 ,但是日志里是 172.0.0.1.

就是不断的启停.反正起不起来就停止然后又重启,返回的这样操作了好多次,你这个是pd的日志,这是本机的日志,用的是127.0.0.1 应该可以吧,没有修改过配置文件。

开始数据库服务器是好好,后面不知道怎么的数据库喜欢挂,最开始挂了启动还是很快的,后面慢慢的就启动不起来了。

提供一下 pd 部署目录下的 run_pd.sh 脚本内容

run_pd.sh (578 字节)

上面那个文件是192.168.31.8 的
下面另外一台机器(192.168.31.9)的run_pd.sh 截图

你脚本中的内容和日志显示的 IP 是有问题的,我建议你3个pd 都依次检查一下这个:
1、查看 /etc/systemd/systemd 对应 pd 端口的 service 文件内容中 脚本的目录 是否和 部署目录一致
2、查看部署目录下的 run_pd.sh 是否正常(ip、port 是否正确)
3、关闭 3 台 pd 服务器上的 pd 进程(关闭后要验证,因为 15s 之内,可能会被拉起)
4、再 tiup cluster start ClusterName -R pd 单独 启动 pd
5、查看 其中 一个 pd 的日志,查看对应的日志里的 启动时所用的 ip 和 run_pd.sh 中的是否一样,查看 pd 是否报错,如果不报错,再启动 tikv 、tidb

/etc/systemd/systemd 目录下 pd-2379.service 内容如下,目录地址是正确的,


该目录存在pd 启动文件

一下是run_pd.sh 的内容

运行 tiup cluster stop test-cluster 命令
pd 已经全部停止了:查询端口没有被占用了

image

启动pd

192.168.31.8 pd.log 日志

上传中:pd_stderr.log… pd.log (13.7 KB) node_exporter.log (3.6 KB) blackbox_exporter.log (382 字节)

192.168.31.8查看端口,实际是启动了

192.168.31.9 pd.log 日志
blackbox_exporter.log (385 字节) node_exporter.log (3.6 KB) pd.log (27.6 KB) 上传中:pd_stderr.log(1)…

192.168.31.8查看端口,实际是启动了

1、你这是什么集群,如果是 测试环境,能 reload 一下集群嘛,你的脚本内容看着好像有点问题

脚本内容哪里有问题,这是本地环境,里面很多数据在里面,需要先考数据,华为云环境也是一样的错,突然就挂了,就启动不起了。
reload 是重新加载配置吗?

这是配置文件( 运行 tiup cluster edit-config test-cluster 命令 )

刚刚reload 了,还是不得行