【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】5.4.0
【复现路径】做过哪些操作出现的问题
2T的tiflash, 删了一张表(大概100G+),其中一个tiflash始终无法正常服务,监控面板里面的delay特别高。
重启tiflash后,报错,tiflash无法启动。
已通过新增加节点临时解决。但是更希望能了解下故障原因以及快速恢复手段。
日志如下:
【附件:截图/日志/监控】
errorlog(1).log (4.1 MB)
serverlog(1).log (22.0 MB)
tiflash(1).log (62.8 MB)
删除 100+GiB 的大表在 TiFlash 中是两副本么?使用 drop table 删除的表么 ?现在 TiFlash 的节点的配置啥样? 正常 100GiB 大表 GC 操作应该也会很快处理完成,并不会有类 TiFlash 无法正常使用的情况。能否提供一下 drop table 操作的时间和 TiFlash 重启操作时间?
又看了下当时的记录,删除的是100亿的表。用的drop table
tiflash的节点配置是64核256G的机器。
删除的时间大概是中午,重启时间大概是下午19点后吧,年前的故障了,当时没有快速恢复手段,就创建出了一个新节点慢慢替换了。目前只保留了这3个日志。
如果能从这3个日志中分析出事故原因或者有跳过fatal的那个region的方法最好了,为后面解决同样的问题提供参考。
如果信息确实有限,没法定位的话,就先这样吧。
感谢感谢!
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。