集群安装方式是3tidb+3pd+8tikv,使用的是ansible安装方式,安装版本为3.0.7。安装完成后尝试使用pd-ctl的命令查看集群状态出现错误: 。查看日志pd日志,没有发现异常日志,pd_stderr.log文件为空。grafana监控以及prometheus监控都没有任何异常告警。尝试使用pd-ctl的其他命令都抛出类似错误。
你好,
请帮忙确认几个信息
- pd-ctl 是否与 tidb 集群版本一致
- 2379 是否为 pd status_port 值
- 贴一下
./pd-ctl -u http://10.252.210.167:2379 cluster
返回直接
不好意思,更正一些 是 client port。
稍等这边反馈下。
- 请反馈下ansible配置文件inventory.ini 下的pd 配置,多谢,不方便的话,ip隐藏一位
- 请问 210.167也是pd吗? 使用 pd-ctl 链接这个ip 试下,多谢。
- 反馈 grafana 监控 over-view 界面的 状态截图
- 麻烦反馈下 pd.log 日志,多谢.
- 请问这个环境是测试环境还是生产环境? 能否尝试重启集群?
- 在重启前,查看over-view 监控项,确认所有实例都是up状态
- 重启后,麻烦执行再执行下,请把3个pd的地址都尝试下,多谢。
- 如果还是失败,请上传重启后的pd日志,多谢
你好,
尝试在 pd leader 的同一台服务器执行 pd-ctl,上传下返回结果,感谢配合
pd的三台服务器,分别是167、171、172。167是ansible服务器,也是prometheus监控服务器,现在的想象是在167上执行pd-ctl相关命令会出现错误,在171和172两台上面执行命令有正常的返回:
其中171是leader
- 请问您是什么环境? 是虚拟机或者docker安装的吗? cpu ,内存配置如何
- 能否反馈下 grafana监控 over-view , tidb, pd,tikv-detail 的监控,多谢。 可以使用以下方法截长图 (1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl
(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。
(3)、使用这个 full-page-screen-capture 插件进行截屏保存
1、是物理机安装的,80c512G的机器配置。 2、 ![](file:///C:\Users\wb520\AppData\Roaming\Tencent\Users\2926700015\QQ\WinTemp\RichOle\5DKL(Q7~)BN8YPMI]D8`263.png)
- 167是pd和tidb混合部署吗?
- 麻烦看下167上的进程 ps -ef | grep pd-sever
- 把pd-ctl copy 到 167上试下 能否 执行成功。如果失败,反馈下 167的pd.log 日志,多谢
补充一下:pd部署的3台服务器同时也部署了tidb-server的。现在只有167上pd-ctl有问题,另外两台均无问题!
- 请问在167上pd-ctl 使用 167 能 查看吗?
- 麻烦反馈下 167 的 pd.log 多谢。
- 检查下 167 到 其他两个 pd 的端口都放通了吗?