查看集群拓扑信息提示警告信息

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】4.0.6

【问题描述】
使用tiup cluster stop 集群名称 停止的过程中没有报错,但是停止以后,查看集群拓扑tiup cluster display 集群名称,提示如下信息:
WARN: get location labels from pd failed: no endpoint available, the last err is: Get http://xxx.xxx.xxx.xxx:2379/pd/api/v1/config/replicate: dial tcp xxx.xxx.xxx.xxx:2379: connect: connection refused

我在中控机上执行警告信息里面的命令也没有问题:
curl http://xxx.xxx.xxx.xxx:2379/pd/api/v1/config/replicate
{
“max-replicas”: 3,
“location-labels”: “dc,host”,
“strictly-match-label”: “false”,
“enable-placement-rules”: “true”
}

我启动,停止集群过程中都没有报错,这个是什么问题呢?

谢谢。


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

这个问题,稳定复现吗?看着就是网络的问题,可以看下日志里是否还有其他的内容输出

对,每次我把集群停下来后,执行tiup cluster display都会出现。
你说的日志,是pd的日志内容吗?

如上是三个pd的日志文件。

1、确认个信息,你是在关闭集群后,display 报的错对吧
2、帮确认一下 tiup 的版本

对,关闭集群以后报这个错误。
版本是v1.2.0

这个报错不影响使用,告警的内容也属于正常的,不过告警这个动作是否合理,我这边反馈一下

好的,还请再分析一下,看看有什么影响?我们另一套环境就没有问题。

这个没影响,原因我们分析一下

我又测试了一下,停掉集群后,查看集群拓扑时,原来一直报180节点的错误信息。我后来把180这个节点给剔除掉了,然后再测试,开始报179这个节点的错误信息了。

后来我又把180这个节点重新扩容添加回来,就又跟原来一样,报180的错误信息了。

  1. 请问集群启动状态下,执行 display 报错吗?
  2. tiup edit-config 中的配置信息麻烦发一下,多谢。

1、在集群启动的状态下,不会报错。只有把集群所有的组件都停止以后才会报错,停止部分的组件实例下也不会报错。
2、信息请见附件。

  1. 请问是离线环境吗?
  2. 当前是 v1.2.0 的 tiup 吗? 是否可以试试升级到最新版本? 你说的另一套环境tiup版本一样吗?

1、是离线环境
2、tiup版本是1.2.0版本,可以尝试升级tiup版本。
另一套环境tiup版本跟这个是一样的。

tiup怎么升级呢?

https://docs.pingcap.com/zh/tidb/stable/upgrade-tidb-using-tiup-offline#使用-tiup-离线镜像升级-tidb

你的意思是让我升级tidb集群版本吗?还是升级tiup工具的版本?
升级到哪个版本呢?

  1. 只升级 tiup 即可,升级到当前最新版本。
  2. 另外和您确认下,这个集群是直接用tiup创建的,还是从ansible导入的?

直接用tiup创建的。

升级到4.0.12后还是不行。
另外tiup升级后怎么回退到我原来的版本呀?
我在低版本的目录里面执行local_install.sh以后,执行tiup命令报错:error:no version:v1.4.0

需要检查下集群中的每个成员是不是都可以访问这个 URL

比较怪