tidb-server不定时重启

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.1.0
【遇到的问题:问题现象及影响】
tidb-server多个节点会不定时的自动重启
【已知其它信息】
出现故障的时间前后,服务器没有 cpu、内存、负载等异常。
下面是重启前的一部分tidb,log 和 该时间部分tidb_stderr.log内容
【附件:截图/日志/监控】


a.log (66.1 KB)

dashboard里 看看持续性能分析是不是开启的 ,高级调试里

1 个赞

没有开这个功能。

tidb 的内存监控看看是不是oom了,dmesg也看下

Panic: concurrent map writes of ParallelNestedLoopApplyExec's SimpleLRUCache · Issue #50347 · pingcap/tidb · GitHub 感觉像这个bug

dmesg显示最近没有 oom ,/var/log/message 在该时间有这样一段记录。Apr 28 08:02:19 TIDB_2 auditd[599]: Audit daemon rotating log files
Apr 28 08:10:01 TIDB_2 systemd: Started Session 50725 of user root.
Apr 28 08:20:01 TIDB_2 systemd: Started Session 50726 of user root.
Apr 28 08:30:01 TIDB_2 systemd: Started Session 50727 of user root.
Apr 28 08:36:42 TIDB_2 systemd: tidb-4000.service: main process exited, code=exited, status=2/INVALIDARGUMENT
Apr 28 08:36:42 TIDB_2 systemd: Unit tidb-4000.service entered failed state.
Apr 28 08:36:42 TIDB_2 systemd: tidb-4000.service failed.
Apr 28 08:36:57 TIDB_2 systemd: tidb-4000.service holdoff time over, scheduling restart.
Apr 28 08:36:57 TIDB_2 systemd: Stopped tidb service.
Apr 28 08:36:57 TIDB_2 systemd: Started tidb service.

建议升级到6.1的最新版6.1.7

升级到新版本看看有没有优化

感觉是bug,是稳定浮现? 可以搞一升级

从我的角度看可能不是bug。我的视角上是,我们程序架构上有做了一些调整。然后突然就出了这个问题。如果是bug。感觉不会突然出现。毕竟这个版本也用了好久了。是否还有其它排查的点。能不升级还是不升级。热升级影响多大?

感觉还是挺稳定。前天开始,天天有几次。

影响太大。不敢升级。

业务调整,导致oom了??

没有,不是oom。

楼主先去排查下集群的Dashboard和TiDB 相关的 Grafana面板,应该可以收集到一些有用的信息

不是OOM的化,找个环境升级看看能不能复现?

:sob: 唉,dashboard 中没有看到什么慢 sql, grafana中看曲线也没发现什么异常。太难了。

升级最新版,保准能治好,一般.0的版本都是bug多多

在线热升级对业务影响多大。怎样尽可能的无感升级。

感觉不像是 bug,毕竟之前用的挺稳定。应该从磁盘,内存方面做监控,然后在分析。