tiup cluster 使用topology.yaml 配置的TIKV多端口服务未成功启动 集群背后是怎样的通讯

使用TIUP 安装集群,V5.1.1, 已经全部通过TIUP check命令各项参数后,以及集群的机器之间端口防火墙全部放开的,但TIUP deploy安装 20161端口服务报错,日志:

而其中一个端口服务20160服务是能正常启动的:

为什么会出现这种同一台机其中一个端口能启动另一个端口不能启动的情形,topology.yaml这样配置的背后是怎样的运行步骤,以便能解决到这个问题呢?

我贴上我的topology文件:


1赞

还可以具体看下,安装不成功之后,tiup stop 集群,同样20161 端口失联,9100这个服务也关闭不了:


而我本机82节点上展示的目录跟81这个kv节点一样:

通过 systemctl 查一下对应的服务状态,另外通过 journal log 查一下 systemd 服务日志看一下对应服务启停情况。

现在问题是我想stop cluster 之后destroy 都不成功,能扎搞

是新集群么 ?我建议可以这样试试,新集群 destroy,然后通过 tiup 的 command 命令将对应的服务、数据删掉。然后在 deploy 之前,通过 tiup check 工具检查一下是否符合要求,然后再进行安装。

是新集群,如上报错就是stop 和destroy 联系不到某些服务

那还真的要看检查一下网络和端口的情况,这块贵影响到 TiUP 作为中控的使用。

大佬能帮解释下,
tidb_servers: status_port: 10080
tikv_servers: status_port: 20180
是什么用途吗

以及最后的monitor grafana 默认就9100端口了?

1赞

tidb和tikv这两个的端口的作用可以参考一下这两个链接:
image
https://docs.pingcap.com/zh/tidb/stable/command-line-flags-for-tidb-configuration#--status


https://docs.pingcap.com/zh/tidb/stable/command-line-flags-for-tikv-configuration#--status-addr

1赞

感谢大佬 收获多多

1赞

客气了,我也刚接触几个月,一起学习,共同进步:handshake:

1赞

这是pingcap 的报错吧?

1赞

看日志的等级是debug,看具体内容是端口的问题,我认为可以先到对应的机器上看一下,这个服务,这个端口是不是正常的?

1赞

现在已经是停止了;
正常来说,stop 或者 destroy 集群后它会将这些端口9100 20160 20161都直接删除吧,现在就是我需要人手去删才行

2赞

这我提的这个问题已经解决掉了 ,关键时候还是运维哥哥给力! 注意tidb账号下.tiup/clusters 下本身的.ssh 公钥能够复制到各个集群机台

3赞

:+1: