安装tiflash不成功，又无法删除

vesa · 2023 年6 月 30 日 09:55

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v7.1.0
【复现路径】卸载tiflash，升级tidb版本至7.1.0，用scale-out命令增加tiflash节点，但出现超时错误中断

【遇到的问题：问题现象及影响】
查看集群状态，tiflash变为Tombstone状态，但无法删除，用purge命令无效，也无提示

对tiflash节点用scale-in缩减，依然报错

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

ShawnYan · 2023 年6 月 30 日 12:28

看看tiflash的日志，purge的时候有什么报错没有

xfworld · 2023 年6 月 30 日 13:45

您可以按照以下步骤手动将 TiFlash 节点完全下线并解除 TiUP 的展示：

使用 tiup cluster display <cluster-name> 命令查看 TiFlash 节点的状态，确认该节点的状态为 Tombstone。
使用 tiup ctl:v<CLUSTER_VERSION> pd -u http://<pd_ip>:<pd_port> store 命令查看该 TiFlash 节点对应的 store ID。
等待该 TiFlash 节点的 store 从 PD 中消失或者状态变为 Tombstone 后，停止 TiFlash 进程。
手动删除 TiFlash 数据文件（可以在集群拓扑文件中的 TiFlash 配置的 data_dir 目录下找到）。
使用 tiup cluster scale-in <cluster-name> --node <pd_ip>:<pd_port> --force 命令删除该 TiFlash 节点的信息。

在所有 TiFlash 节点停止运行之前，如果没有取消所有复制到 TiFlash 的表，您需要手动清理 PD 中与 TiFlash 相关的所有数据复制规则，否则 TiFlash 节点无法成功下线。手动清理 PD 中与 TiFlash 相关的所有数据复制规则的步骤如下：

tiup ctl:v<CLUSTER_VERSION> pd -u http://<pd_ip>:<pd_port> operator show

tiup ctl:v<CLUSTER_VERSION> pd -u http://<pd_ip>:<pd_port> operator cancel <operator-id>

其中，<operator-id> 是与 TiFlash 相关的数据复制规则的 ID。

Sean007 · 2023 年7 月 1 日 01:51

请检查主控机与TiFlash主机之间的SSH互信是否正常？

redgame · 2023 年7 月 1 日 10:49

问题没看出来，但删除可以尝试：停止 TiDB 集群中与该节点关联的所有操作。然后，手动删除 TiFlash 节点的相关数据文件和配置信息。最后，从集群的元数据中删除该节点的信息，以确保集群正确识别其状态变更