TIDB8.5.3社区版的TIFLASH主机总是异常重启

【TiDB 使用环境】生产环境
【TiDB 版本】8.5.3 社区版
【操作系统】 Linux 5.14.0-503.40.1.el9_5.x86_64(Rocky Linux 9.5)
【部署方式】VMWARE虚拟机
【集群数据量】

IP 组件
10.20.17.186 alertmanager
10.20.17.186 grafana
10.20.17.176 pd
10.20.17.177 pd
10.20.17.178 pd
10.20.17.186 prometheus
10.20.17.184 tidb
10.20.17.185 tidb
10.20.17.182 tiflash
10.20.17.183 tiflash
10.20.17.179 tikv
10.20.17.180 tikv
10.20.17.181 tikv

【问题复现路径】未做过什么操作
【遇到的问题:问题现象及影响】
Tiflash节点10.20.17.183 突然出现主机重启,主机重启后,手工启动TIFLASH启动不了,日志tiflash_tikv.log显示
[2025/12/04 05:34:42.409 +08:00] [INFO] [resource_group.rs:151] [“add resource group”] [ru=2147483647] [name=default] [thread_id=1]
[2025/12/04 05:34:42.411 +08:00] [FATAL] [common.rs:188] [“panic_mark_file /data/tidb-data/tiflash-9000/flash/panic_mark_file exists, there must be something wrong with the db. Do not remove the panic_mark_file and force the TiKV node to restart. Please contact TiKV maintainers to investigate the issue. If needed, use scale in and scale out to replace the TiKV node. https://docs.pingcap.com/tidb/stable/scale-tidb-using-tiup”] [thread_id=1]

检查了其他日志
tiflash_stderr.log
tiflash_error.log
tiflash_error.log
dmesg
/var/log/messages
vmware日志
没有明显的错误

且故障时间点前,TIFLASH的IO/CPU/内存使用都不高。

通过TiDB Dashboard 监控看到,TIKV在故障时间点前的Raftstore error很多,

请问TIFLASH节点主机异常重启与什么有关系呢?谢谢各位大神!

这是提示缩容扩容来替换这个节点。

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

看看你的资源情况,我感觉是因为资源不够的原因,你的部署方式是怎么样的,资源情况都截图一下。

看看日志里面有没有以下报错:

  • out of memory:内存溢出导致崩溃;
  • disk full/no space left:磁盘满导致崩溃;
  • IO error:磁盘 IO 故障(如磁盘损坏、挂载异常)。