tidb节点启动失败

mydump导出一个200g的tidb数据库导致集群异常,重启后,一个tidb节点起不起来,一直循环打印如下日志,这个tidb重新部署也不起效果,tidb版本3.0.12

您好:

    1. 重新部署的tidb无法启动,在启动时有提示什么报错吗?
    2. 请问mydumper导出的进程是否已经停止? ps -ef 可以确认下,先停止进程
    3. 集群拓扑是什么? inventory.ini文件是否方便上传 ,或者描述分别几个实例,多谢
    4. 能否上传tidb.log 和 tikv.log 日志,我们分析下问题发生时的原因,以及当前tidb和tikv的状态,多谢。
    1. 一样的错误,截图就是重新部署后截图,和未重新部署前日志内容一样,日志一直在输出,但是没有成功监听4000端口;
  • 2.mydumper已停止;
    1. pd和tidb合并部署,两个机器,每台机器一个实例;tikv独立部署,三台机器,每个机器两个实例;
    1. 不好意思,日志让我删了。

现在集群状态已经正常了,详细过程是

  • 1.执行mydumper 备份,开4个线程,切分文件,每个文件256MB,数据库大小200GB
  • 2.过程中集群挂了,其中一台tikv机器假死,这台集群上的两个tikv store状态一直是down;
  • 3.其中一个tidb启动不了,就是我这次咨询的问题;
  • 4.我想办法将假死的tikv重启启动后,使用ansible重启整个集群,那个启动不了的tidb节点和整个集群突然状态又正常了。

您好: 麻烦截图inventory.ini中tikv的配置,多谢,我看下是否包含了labels标签,如果像您说的3个服务器,6个tikv实例,如果只挂了一个,感觉应该还是可以访问的,如果没有打标签,那么可能是有问题的,多谢。

感谢反馈,看起来label标签也是正常的,如果只有一台有问题,感觉其他两台可以正常提供服务。下次如果有类似问题,麻烦帮忙反馈tidb.log 和 tikv.log 日志,我们具体看看问题,多谢

我有两个tidb,一个tidb实例无法启动集群也是可以正常提供服务的,我不理解的是,理论上tidb无状态,即使底层一个kv挂掉,也不应该造成tidb实例无法启动才对。 好的,下次我注意留存下日志。

是的,通常来说tidb应该是不受影响的,从您的日志看,tikv的peer有问题,下次保留日志,我们再详细分析,感谢。