Status code was -1 and not [200]: Request failed: <urlopen error [Errno 111] 拒绝连接

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:2.1.8
  • 【问题描述】:使用ansible-playbook start.yml 启动集群时报错:Status code was -1 and not [200]: Request failed: <urlopen error [Errno 111] 拒绝连接

    pd.log (267.7 KB)
    若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
  1. 请问之前有什么操作吗? 这个是新安装的集群,还是升级? 或者只是重启无法启动?
  2. 检测当前报错信息 [2020/05/07 10:03:38.491 +08:00] [WARN] [probing_status.go:70] [“prober detected unhealthy status”] [round-tripper-name=ROUND_TRIPPER_RAFT_MESSAGE] [remote-peer-id=22b2f9e68f0296] [rtt=0s] [error=“dial tcp 192.168.1.189:2380: connect: connection refused”]

请检查当前中控机到192.168.1.189:2380 ,以及其他 pd 到 到192.168.1.189:2380 访问是否正常,是否端口没有放通,或者防火墙没有关闭,多谢。

之前是升级操作,但是失败了,准备用原先版本先操作tidb来着,但是起不来了。
每次进行到这一步就卡住了

你好,

  1. 可以按照楼上的提示检查下基础环境,可以将检查结果截图发上来
  2. 在各个节点下,看目前 tidb pd tikv 版本分别是多少,是否统一 在你的安装目录下,类似 /bin/找到具体的 tikv-server , 执行 ./tikv-server -V 可以查看版本.

防火墙是关闭的;


192.168.1.188:image
192.168.1.185:image
192.168.1.186:image
192.168.1.187:
192.168.1.189:

你好,

1.888 pd-server 版本与集群其他节点不符,麻烦将 189 上的 2.x 版本的 pd-server scp 到 888 上,并备份 888 上的 3.x 版本的 pd-server 尝试启动是否可以。

pd.log (467.4 KB) start.txt (7.3 KB)

192.168.1.188:image

你好,

你的问题已收到正在分析请稍等

辛苦检查下 188 机器到 189 机器的 PD 服务端口是否正常,日志里显示:“ dial tcp 192.168.1.189:2380: connect: connection refused”。

单节点启动的时候会提示另一个节点无响应,但是一起启动的时候只能启动188的,189的服务器起不来

这里的问题应该是 189 上面的 pd server 与 188 的 pd server 通讯有问题,所以需要检查下 188 能否正常访问到 189 的 pd server 端口,从这个方面排查这个问题。执行:telnet 192.168.1.189 2380 看下。

如果通过start_pd.sh 启动的话,189的pd起不来呀。有其他命令吗

辛苦提供下 189 的 pd 日志信息,需要根据日志信息再分析下。

pd189.log (920.3 KB)

tikv.log (14.0 KB)

是这么个状况:我启动188的pd,可以成功



紧接着启动189的pd-server,
pd.log (7.0 KB)

image

pd_stderr188.log (13.8 KB) pd_stderr189.log (2.4 MB)

嗨,帮忙确认下操作过程:

1)升级过程中因为某些原因,升级过程异常,后面执行 start 集群发现一个 PD 异常(189)没有起来

2)定位到是一个 PD 已经升级到高版本(3.0.2),后面用低版本的 pd-server 文件替换高版本节点文件,再次启动(run_pd.sh)该节点时,一直无法启动,同时整个集群不可用

3)使用 pd-ctl 查看,存活的节点(188)为 follower

1和2 对的,3是执行返回这样的结果:

  1. 当前使用ansible启动,188可以启动,但是189无法启动对吧
  2. 麻烦帮忙测试下,先用ansible关闭集群, 手工尝试启动188,在启动189的pd 。 之后关闭188,189. 再手工启动189,188的pd,换下顺序,看下是不是都是只有第一个能启动,第二个无法启动,麻烦了,多谢。