tiflash节点下线后状态为N/A

Hacker_K4rqYquD · 2024 年8 月 19 日 08:48

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v7.1.2
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

监控下线也显示成功了。
但是状态为N/A删除不了。下不掉。有了解的专家大神请教一下

TiDBer_xTvoCh2f · 2024 年8 月 19 日 09:10

https://docs.pingcap.com/zh/tidb/v8.2/scale-tidb-using-tiup
tiup ctl:v<CLUSTER_VERSION> pd -u http://<pd_ip>:<pd_port> store delete <store_id> 试试手动删除store

TiDBer_xTvoCh2f · 2024 年8 月 19 日 09:11

方案二：手动缩容 TiFlash 节点

Hacker_K4rqYquD · 2024 年8 月 19 日 09:31

store_id没有这个节点的store_id,已经下掉了。

TiDBer_xTvoCh2f · 2024 年8 月 19 日 10:03

更新集群配置：

tiup cluster reload <cluster-name> --skip-restart

试试这个管用不

Hacker_K4rqYquD · 2024 年8 月 19 日 10:06

线上的，这个重启集群，目前还有业务跑这个暂时不能试。

TiDBer_xTvoCh2f · 2024 年8 月 19 日 10:07

  --skip-restart                 Only refresh configuration to remote and do not restart services

我测试了，看起来没有重启

Hacker_K4rqYquD · 2024 年8 月 19 日 10:14

嗯，辛苦了，这个节点之前有问题我直接关机重置了。没法正常命令下，现在已执行缩容命令，集群这个节点数据也清完了，也成功了。目前啥服务都没起空的。就是集群下不掉。

芮芮是产品 · 2024 年8 月 19 日 22:02

还要删除

Amy_Jing · 2024 年8 月 20 日 08:05

老师，14.9上没有tiflash服务状态了，对吗？目前对集群的影响是？

Hacker_K4rqYquD · 2024 年8 月 20 日 08:19

是的，下不掉我就把14.9的所有数据及服务都删掉了。还是下不掉。目前对整个集群来说影响是再扩容tiflash显示端口占用。

Hacker_K4rqYquD · 2024 年8 月 20 日 08:20

tiup cluster check SQ-cluster --cluster 检测还会报错：, ssh_command: export LANG=C; PATH=$PATH:/bin:/sbin:/usr/bin:/usr/sbin; /usr/bin/sudo -H bash -c “/tmp/tiup/bin/insight”}, cause: Run Command Timeout

Verbose debug logs has been written to /home/tidb/.tiup/logs/tiup-cluster-debug-2024-08-20-14-18-30.log.

Lucien-卢西恩 · 2024 年8 月 20 日 08:29

试试这个 prune 命令可以清理已经 scale-out 的节点。
https://docs.pingcap.com/zh/tidb/v7.1/tiup-component-cluster-prune

Hacker_K4rqYquD · 2024 年8 月 20 日 08:30

这个试过了这个不行。

Lucien-卢西恩 · 2024 年8 月 20 日 10:14

在看一下对应的 cluster 的 yaml 的配置文件里面有吗？

Hacker_K4rqYquD · 2024 年8 月 20 日 10:20

配置文件里有这个节点的配置。

Amy_Jing · 2024 年8 月 21 日 05:53

可以在配置文件里面做删除操作吗？

Lucien-卢西恩 · 2024 年8 月 21 日 06:38

可以注释试一下

Hacker_K4rqYquD · 2024 年8 月 22 日 02:30

修改配置文件无用，保存不了。
目前问题已解决：
解决方法，从别的tiflash节点拷贝服务程序到故障的tiflash节点，重新修改故障节点的配置文件，清空data目录数据，由于集群拓扑里有没有下架的节点信息，服务会自动启动。节点恢复，数据同步正常。

此次问题，由于扩容了cpu不支持aux2的服务器的tiflash节点导致，扩容后由于扩容成功，集群就加入了tiflash节点，但是节点这边由于cpu不支持，导致服务启动不了。整个集群拓扑结构里显示节点N/A不可用状态。
集群在缩容此节点时需要调用此节点的服务端口及服务才能正常缩容成功。因cpu不支持，所以服务没有启动导致缩容不成功。
这点感觉有点坑，也可能我操作的有问题，扩容check成功也不一定就扩展成功。扩展不成功还下不掉就很危险了。

洪七表哥 · 2024 年8 月 22 日 02:58

这个操作厉害