【故障排查】v4.0.8 tidb自行滚动重启,导致业务无法正常进行

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
【概述】场景+问题概述
tidb自行滚动重启,tidb内存升高。
【背景】做过哪些操作
没有操作,尝试过关闭 run-auto-analyze 之前另一个集群有出现过类似现象,但是在升级到v4.0.8后应该已经解决
【现象】业务和数据库现象
tidb重启,业务执行语句中断或超时,我们尝试新增一个tidb,这个 tidb-server 没有连接任何负载,但是这个tidb-server也会重启,即是在没有运行语句的情况下,这台服务也会跟着滚动重启。
【业务影响】
【TiDB 版本】
v4.0.8
【附件】

  1. TiUP Cluster Display 信息
  2. TiUP Cluster Edit Config 信息
  3. TiDB- Overview 监控
  • 对应模块日志(包含问题前后1小时日志)
[tidb.log|attachment](upload://vb2vMcX6w3fDrvtWQQvwbIMJ2Nh.log) (32.6 MB)

现在集群中可能有两种 tidb server 反复重启的现象:

  1. oom 导致 tidb server 重启

这个现象建议根据下面的情况,确认下已有 tidb server 重启的原因是否为 oom:

https://docs.pingcap.com/zh/tidb/v4.0/tidb-troubleshooting-map#32-oom-问题

以及其他原因,比如 panic

  1. 在没有业务负载的情况下,tidb server 重启

这个现象建议看下 tidb.log 以及 sdt_err.log 是否有 panic 信息

1 个赞

在10.10.10.203 这台机子上就是没有加负载的,但是他还是一样在重启。tidb.log日志中没有 panic 。但是在 tidb_sdterr.log 这个日志中有很多 panic的报错信息。

这种情况下,需要提供 tidb_sdterr.log 内容,才能继续排查问题原因

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。