执行任何pd-ctl命令无法返回结果

集群安装方式是3tidb+3pd+8tikv,使用的是ansible安装方式,安装版本为3.0.7。安装完成后尝试使用pd-ctl的命令查看集群状态出现错误:image 。查看日志pd日志,没有发现异常日志,pd_stderr.log文件为空。grafana监控以及prometheus监控都没有任何异常告警。尝试使用pd-ctl的其他命令都抛出类似错误。

你好,

请帮忙确认几个信息

  1. pd-ctl 是否与 tidb 集群版本一致
  2. 2379 是否为 pd status_port 值
  3. 贴一下./pd-ctl -u http://10.252.210.167:2379 cluster 返回直接

1、pd-ctl版本:image
2、ansible的默认配置中没有pd_status_port,默认配置是pd_client_port=2379,pd-server的启动命令:


3、cluster返回值:

不好意思,更正一些 是 client port。

稍等这边反馈下。

  1. 请反馈下ansible配置文件inventory.ini 下的pd 配置,多谢,不方便的话,ip隐藏一位
  2. 请问 210.167也是pd吗? 使用 pd-ctl 链接这个ip 试下,多谢。
  3. 反馈 grafana 监控 over-view 界面的 状态截图
  4. 麻烦反馈下 pd.log 日志,多谢.

1、image
2、210.167就是pd的一台,刚才就是连接的这个ip:image
3、


4、pd.log (920.3 KB)

  1. 请问这个环境是测试环境还是生产环境? 能否尝试重启集群?
  2. 在重启前,查看over-view 监控项,确认所有实例都是up状态

重启集群后!

  1. 重启后,麻烦执行再执行下,请把3个pd的地址都尝试下,多谢。
  2. 如果还是失败,请上传重启后的pd日志,多谢

1、重启后都试过了。还是不行:


2、重启后的日志pd (2).log (952.4 KB)

访问后新增了一部分日志:

你好,

尝试在 pd leader 的同一台服务器执行 pd-ctl,上传下返回结果,感谢配合

pd的三台服务器,分别是167、171、172。167是ansible服务器,也是prometheus监控服务器,现在的想象是在167上执行pd-ctl相关命令会出现错误,在171和172两台上面执行命令有正常的返回:image
其中171是leader

  1. 请问您是什么环境? 是虚拟机或者docker安装的吗? cpu ,内存配置如何
  2. 能否反馈下 grafana监控 over-view , tidb, pd,tikv-detail 的监控,多谢。 可以使用以下方法截长图 (1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

1、是物理机安装的,80c512G的机器配置。 2、 ![](file:///C:\Users\wb520\AppData\Roaming\Tencent\Users\2926700015\QQ\WinTemp\RichOle\5DKL(Q7~)BN8YPMI]D8`263.png)

  1. 167是pd和tidb混合部署吗?
  2. 麻烦看下167上的进程 ps -ef | grep pd-sever
  3. 把pd-ctl copy 到 167上试下 能否 执行成功。如果失败,反馈下 167的pd.log 日志,多谢

1、167上的pd和tidb是混合部署的
2、


3、执行失败。

补充一下:pd部署的3台服务器同时也部署了tidb-server的。现在只有167上pd-ctl有问题,另外两台均无问题!

  1. 请问在167上pd-ctl 使用 167 能 查看吗?
  2. 麻烦反馈下 167 的 pd.log 多谢。
  3. 检查下 167 到 其他两个 pd 的端口都放通了吗?