事接上回停电,PD结点故障修复了,但是tikv也故障了

【上回】机房停电后PD结点无法启动
【 TiDB 使用环境】生产环境
【 TiDB 版本】6.1.5
【复现路径】停电
【遇到的问题:问题现象及影响】机房台风天停电后无法启动集群,先是三个PD中的两个故障,经论坛咨询后修复(大概),结果三个tikv中也有两个出现故障。报错内容相同:


【资源配置】

【附件:截图/日志/监控】
tikv.log (51.6 KB)

看起来是 WAL 损坏了,建议你操作前,先备份一下,,

参考配置信息,调 WAL的模式试试
https://docs.pingcap.com/zh/tidb/stable/tikv-configuration-file#wal-recovery-mode

如果是 region 或者 sst 损坏,可以参考

1 个赞

通过配置rocksdb.wal-recovery-mode: “skip-any-corrupted-records”,两个故障的tikv结点已经恢复,整个集群也已经能正常启动了。但是出现了一个新问题,就是之前未出现故障的结点出现疯狂打日志的情况,使得硬盘爆满,前端无法写入数据,报错 tikv disk full.


日志内容主要是

请问,这是在为其他故障结点恢复数据吗?这些日志可以删除吗?

建议集群完全恢复正常后,在正式启用,先观察吧

看看日志内容

你可以把 日志级别log-level 修改成 warn ,这样就不记录info 的了,之后一段时间后再改回去