tidb突然挂了启动不了

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】

4.0.7

【问题描述】

tidb集群突然挂了无法启动

这是重启的日志

tiup-cluster-debug-2021-04-07-12-19-45.log (333.6 KB)

  1. tiup cluster start 后, tiup cluster display 看下哪些组件都没有启动
  2. 根据 debug 日志,去具体的实例看下日志是什么原因没有启动。

tikv 全都启动不了

导致其他的都启动失败

debug日志
tiup-cluster-debug-2021-04-07-14-20-03.log (343.6 KB)

  1. 具体问下发生前都做了哪些操作? 或者你自己知道有哪些事情发生?比如断电之类的,先了解清楚
  2. 出了debug日志,重启一次,把每个组件的log发上来,可以先把 pd,tidb,tikv 的 log 日志发一下。deploy_dir/log 里找到启动的日志。

突然 down 掉之前在用ticdc 测试同步数据到MySQL,这是同步的另一个帖子

在上个同步的帖子里,根据回复指示,测试同步一个表的数据,同步成功一条数据后,就有一个ticdc,3个pd都挂了

然后整个用这个命令停止整个集群

tiup cluster stop publish-cluster

停止之后就不能启动了,启动就是如上截图和日志的情况

这是重新启动后相关的日志
pd.log (147.3 KB)
pd_stderr.log (232.0 KB)
tidb.log (4.6 KB)
tikv.log (220.0 KB)
tiup-cluster-debug-2021-04-07-14-42-14.log (382.4 KB)

无法启动,缩容 ticdc 提示的错误

Error: failed to scale in: no pd endpoint available, the last err is: error requesting http://192.168.88.43:2379/pd/api/v1/config/replicate, response: no leader
, code 503

麻烦把3个pd的日志都发一下,目前看日志无法和其他pd通信

pd-43.log (122.6 KB)
pd-44.log (178.9 KB)
pd-45(1).log (307.8 KB)

  1. 从pd-45日志可以看到有报错:
    [2021/04/07 15:34:03.895 +08:00] [ERROR] [server.go:1117] [“campaign leader meet error”] [error="[PD:etcd:ErrEtcdGrantLease]etcdserver: mvcc: database space exceeded"]
  2. quota-backend-bytes=“8GB” 已经是 8G 无法调整。
  3. 根据文档来修复
    https://docs.pingcap.com/zh/tidb/stable/troubleshoot-ticdc#ticdc-占用多少-pd-的存储空间
  4. 也可以参考这个文档 https://www.cnblogs.com/davygeek/p/8524477.html
  5. 正常后,请升级iticdc 到高版本,多谢。

image

因为集群启动不了,pd也启动不了无法清理,执行清理命令报如上图错误

能不能把有问题的那台pd服务器摘除,再启动,如果可以应该怎么操作?

问题终于解决了

记录一下 使用ETCD 数据空间压缩清理 过程中的细节

因为集群无法启动,要把 pd单独启动,再使用 etcd 进行清理

pd 单独启动后,把 ticdc 缩容

集群启动失败的时候,对集群进行了升级操作,返回升级失败

后面把问题解决,集群得以启动后,发现组件都升级成功了

但是 tiup 显示的还是旧版本

image

这两个图片的版本怎么不一致呢?

麻烦重新提个帖子吧,一个帖子处理一个问题,方便以后的人查看,在新帖子里处理这个问题,多谢。