pd 启动不起来了,pd 老是挂

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】
v.4.0
【问题描述】
启动报错信息

日志信息

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

TiUP 打印的日志信息,显示 192.168.31.8 这个 pd server 已经拉起了,但是加入到 pd cluster 时,因网络或短端口的问题,么有加入成功。针对这个问题,请尝试做下面的操作:

1、ssh 到 192.168.31.8 服务器,看下 pd server 的运行情况,是否已经启动完成

2、当前集群有几个 pd 节点,192.168.31.9:2379 也是 pd 节点吗?如果是,请检查下这个 192.168.31.9:2379 pd server 的运行情况

我现在就是192.168.34.8 机器上。
服务分布是这样的,

31.8 pd 日志。

建议先尝试使用 tiup cluster start {cluster_name} -R pd ,把 pd cluster 整体拉起

如果上面的方式仍然无法启动,可尝试做下面的操作:
1、拉起 pd 9.31,确保其启动成功
2、重启 pd 8.31 观察 pd 运行情况

另外,pd 内嵌 ETCD ,需要满足大多数,2 个节点的高可用性和 1 个节点基本上没有差异。所以生产环境部署时建议 3 个节点,测试环境如果不考虑高可用性,可以部署一个节点 ~

生产环境是3个pd.
如果我现在改成一个pd的话我只需执行tiup cluster edit-config test-cluster 改配置就可以了吗?

不是,当前建议先使用 tiup cluster start {cluster_name} -R pd ,把 pd cluster 整体拉起,后面再考虑调整 pd 的部署架构

启动不起pd

试下这个方式

31.9 也拉起不了

1、31.9 和 31.8 看下 pd server 是不是都启动了,如果都启动了,那么请在 31.9 上 telnet 下 31.8 2379 端口,反之亦然。以及检查下 31.9 和 31.8 间的网络情况,可以通过 grafana node-exporter 查看服务器网络带宽的使用情况,通过 grafana blackbox 监控查看两台服务器间的网络延时
2、把 9.2379 和 8.2379 的 pd server 的日志 log 文件拿下(非截图

pd 都没有启动,

日志文件太大了上传不上,有其他方式把日志文件给你吗?

日志文件

链接:https://pan.baidu.com/s/1zhXflo7wMsUYwbgWcuP3jg
提取码:a92x
复制这段内容后打开百度网盘手机App,操作更方便哦

感觉楼主没有说清楚
看起来本来有2个pd 现在要缩容是吗?
你可以再仔细描述一下完整的操作过程,和拓扑的前后变化

不是缩容,以前tidb 版本是3.1 的,最近升级到4.0了,一直用的是2个pd,刚刚楼上说用两个pd和用一个pd是一样,现在问题是两个pd都启动不起来,而且启动了用不了多久又挂了,反正每次启动报错的问题都不一样。

pd(31.8).log (13.5 KB) pd(31.9).log (832.3 KB)

好的,收到,辛苦再帮忙确认下下面的信息:
1、当前 31.9 和 31.8 这两台服务器上除了部署了 tidb 集群,还有部署其他组件,并且比较消耗网络资源的组件吗?
2、请查看下 5 月 6 日 00:00 ~ 5 月 7 日 14:00 的 grafana 的 node-exporter 监控,31.8 和 31.9 这两台服务器的网络带宽的使用情况
3、请查看下 5 月 6 日 00:00 ~ 5 月 7 日 14:00 的 grafana 的 blackbox 监控,31.8 和 31.9 这两台服务器之间的网络延时
4、两个 pd server 的版本不一致,一个是 4.0.0 一个是 3.1.0,这块也请确认下

另外,31.8 和 31.9 这两个 pd server 通过 tiup 看到的是 down 状态,服务器上 ps -ef 能看到相应的进程吗?

  1. 31.8 有一个redis,31.9上面部署了一个java 应用.
    2、请查看下 5 月 6 日 00:00 ~ 5 月 7 日 14:00 的 grafana 的 node-exporter 监控这个是这个界面上的工具操作么?

31.8 的 PD 看起来还没有升级成功吧?当时怎么升级的?遇到什么报错了?