tikv节点异常下线

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
早上发现凌晨0点左右有台tikv节点异常下线,而且目前tidb的dashbord页面打开也一直转圈圈
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】



tikv 这台服务器 是否正常?? 看看是不是dashboard 进程也在这台服务器上呢 ?

不在,,dashboard在pd节点上,没有问题,下线的这台tikv的服务已经死掉了。日志报了上面那些然后就是和pd连接超时了

已经无法重启了吗???这台服务器

服务器没问题,服务有问题,我看上面好像是sst文件损坏造成的

1 个赞

现在影响到使用了没 ?

:joy:肯定有影响的

https://docs.pingcap.com/zh/tidb/stable/tikv-control#打印损坏的-sst-文件信息

尝试按照这个修复一下。就怕是存储介质有问题。如果不是停机断电导致的sst文件损坏的话,更像是存储某块突然有了问题。

嗯嗯,正在参照这个弄,


全在报这个是不是store_id为1的坏了

损坏的sst文件很多吗?

没有吧,我就看到一条关于sst的信息,但是一直在打印上面的failed的信息

不是,我的意思是执行tikv-ctl --data-dir </path/to/tikv> bad-ssts --pd 这条命令打印出的损坏的sst很多吗?


这个检查卡在这1个小时了没反应,算正常么

那估计坏的不少啊。。。

这…一般什么情况下才会出现大量sst文件损坏


就2个好像,这种也是正常走sst文件恢复么

只能是尝试修一修

这种怎么修,损坏我知道,这个报错好像报的是不兼容

你这个报错怎么不太对,正常会生成修复命令啊。。。你这个集群是几个tikv节点,几个副本的?