【TiDB 使用环境】生产环境
【TiDB 版本】8.5.3 社区版
【操作系统】 Linux 5.14.0-503.40.1.el9_5.x86_64(Rocky Linux 9.5)
【部署方式】VMWARE虚拟机
【集群数据量】
| IP | 组件 |
|---|---|
| 10.20.17.186 | alertmanager |
| 10.20.17.186 | grafana |
| 10.20.17.176 | pd |
| 10.20.17.177 | pd |
| 10.20.17.178 | pd |
| 10.20.17.186 | prometheus |
| 10.20.17.184 | tidb |
| 10.20.17.185 | tidb |
| 10.20.17.182 | tiflash |
| 10.20.17.183 | tiflash |
| 10.20.17.179 | tikv |
| 10.20.17.180 | tikv |
| 10.20.17.181 | tikv |
【问题复现路径】未做过什么操作
【遇到的问题:问题现象及影响】
Tiflash节点10.20.17.183 突然出现主机重启,主机重启后,手工启动TIFLASH启动不了,日志tiflash_tikv.log显示
[2025/12/04 05:34:42.409 +08:00] [INFO] [resource_group.rs:151] [“add resource group”] [ru=2147483647] [name=default] [thread_id=1]
[2025/12/04 05:34:42.411 +08:00] [FATAL] [common.rs:188] [“panic_mark_file /data/tidb-data/tiflash-9000/flash/panic_mark_file exists, there must be something wrong with the db. Do not remove the panic_mark_file and force the TiKV node to restart. Please contact TiKV maintainers to investigate the issue. If needed, use scale in and scale out to replace the TiKV node. https://docs.pingcap.com/tidb/stable/scale-tidb-using-tiup”] [thread_id=1]
检查了其他日志
tiflash_stderr.log
tiflash_error.log
tiflash_error.log
dmesg
/var/log/messages
vmware日志
没有明显的错误
且故障时间点前,TIFLASH的IO/CPU/内存使用都不高。
通过TiDB Dashboard 监控看到,TIKV在故障时间点前的Raftstore error很多,
请问TIFLASH节点主机异常重启与什么有关系呢?谢谢各位大神!