部署tidb更换版本时出现报错

【 TiDB 使用环境】测试tidb,单机模拟集群部署
【 TiDB 版本】v7.1.0
【复现路径】购买1台centos7系统的ecs,根据官方文档安装,文档链接:https://docs.pingcap.com/zh/tidb/dev/quick-start-with-tidb#在单机上模拟部署生产环境集群
安装到tiflash失败,报错tiflash-9000端口占用。看配置文件,默认端口是3930,使用netstat -tln | grep 3930没有发现被占用。后续tiup cluster clean删除集群,希望换个版本试一下。但删除时报错,在报错提示的详情log路径下,发现log文件内容是空的。ecs已经给本机增加1/65535的安全组。
【遇到的问题:问题现象及影响】

  1. 7.1.0安装tiflash失败。

  2. 安装的7.1.0集群cluster clean失败。

  3. 同一台机器deploy 5.4.1集群时,报端口还在占用,可能是由于2失败导致,但是查看报错端口也没被占用。影响:无法成功完成安装部署tidb。
    【资源配置】
    Centos7.9 64C128G 1TBSSD 100 Mbps
    【附件:截图/日志/监控】

  4. 报错和这个类似,但是检查端口确实没被占用:https://asktug.com/t/topic/1004472/4,https://asktug.com/t/topic/998079

  5. Error: failed to stop grafana: failed to stop: xx.xx.xx.xxx grafana-3000.service, please check the instance’s log(/tidb-deploy/grafana-3000/log) for more detail.: executor.ssh.execute_failed: Failed to execute command over SSH for ‘tidb@xx.xx.xx.xxx:22’ {ssh_stderr: , ssh_stdout: , ssh_command: export LANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin /usr/bin/sudo -H bash -c “systemctl daemon-reload && systemctl stop grafana-3000.service”}, cause: dial tcp xx.xx.xx.xxx:22: i/o timeout。

  6. tiup cluster deploy tidb-test-cluster1 v5.4.1 /root/tidb/topo.yaml --user root -p

tiup is checking updates for component cluster …

Starting component cluster: /root/.tiup/components/cluster/v1.12.3/tiup-cluster deploy tidb-test-cluster1 v5.4.1 /root/tidb/topo.yaml --user root -p

Error: Deploy port conflicts to an existing cluster (spec.deploy.port_conflict)

The port you specified in the topology file is:

Port: 2379

Component: pd xx.xx.xx.xxx

It conflicts to a port in the existing cluster:

Existing Cluster Name: tidb-test-cluster

Existing Port: 2379

Existing Component: pd xx.xx.xx.xxx

Please change to use another port or another host.

多大的内存,看看集群起来之后部署tiflash之前还有多余的内存吗?

128G all in tidb.

tiup cluster list看下还有集群没有,有的话直接干掉用destroy,别用clean
tiup cluster destroy

用destroy试试

用destroy ,我没测过clean
destroy 很干净

我这里destroy和clean报错一致, --force可以

更新成5.4.1同样部署方式start成功。是不是7.1.0有问题?

netstat 检查端口是否被占用,或者更换端口试试。

可以尝试修改集群配置文件中的对应组件的端口,将与已运行的组件端口不冲突的端口分配给它们