tidb-server不定时重启

EDG-给我冲 · 2024 年4 月 28 日 01:31

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.1.0
【遇到的问题：问题现象及影响】
tidb-server多个节点会不定时的自动重启
【已知其它信息】
出现故障的时间前后，服务器没有 cpu、内存、负载等异常。
下面是重启前的一部分tidb,log 和该时间部分tidb_stderr.log内容
【附件：截图/日志/监控】

a.log (66.1 KB)

h5n1 · 2024 年4 月 28 日 01:33

dashboard里看看持续性能分析是不是开启的，高级调试里

EDG-给我冲 · 2024 年4 月 28 日 01:34

没有开这个功能。

h5n1 · 2024 年4 月 28 日 01:39

tidb 的内存监控看看是不是oom了，dmesg也看下

h5n1 · 2024 年4 月 28 日 01:49

Panic: concurrent map writes of ParallelNestedLoopApplyExec's SimpleLRUCache · Issue #50347 · pingcap/tidb · GitHub 感觉像这个bug

EDG-给我冲 · 2024 年4 月 28 日 01:50

dmesg显示最近没有 oom ，/var/log/message 在该时间有这样一段记录。Apr 28 08:02:19 TIDB_2 auditd[599]: Audit daemon rotating log files
Apr 28 08:10:01 TIDB_2 systemd: Started Session 50725 of user root.
Apr 28 08:20:01 TIDB_2 systemd: Started Session 50726 of user root.
Apr 28 08:30:01 TIDB_2 systemd: Started Session 50727 of user root.
Apr 28 08:36:42 TIDB_2 systemd: tidb-4000.service: main process exited, code=exited, status=2/INVALIDARGUMENT
Apr 28 08:36:42 TIDB_2 systemd: Unit tidb-4000.service entered failed state.
Apr 28 08:36:42 TIDB_2 systemd: tidb-4000.service failed.
Apr 28 08:36:57 TIDB_2 systemd: tidb-4000.service holdoff time over, scheduling restart.
Apr 28 08:36:57 TIDB_2 systemd: Stopped tidb service.
Apr 28 08:36:57 TIDB_2 systemd: Started tidb service.

h5n1 · 2024 年4 月 28 日 01:54

建议升级到6.1的最新版6.1.7

stokcli · 2024 年4 月 28 日 02:07

升级到新版本看看有没有优化

DBAER · 2024 年4 月 28 日 02:09

感觉是bug，是稳定浮现？可以搞一升级

EDG-给我冲 · 2024 年4 月 28 日 02:09

从我的角度看可能不是bug。我的视角上是，我们程序架构上有做了一些调整。然后突然就出了这个问题。如果是bug。感觉不会突然出现。毕竟这个版本也用了好久了。是否还有其它排查的点。能不升级还是不升级。热升级影响多大？

EDG-给我冲 · 2024 年4 月 28 日 02:11

感觉还是挺稳定。前天开始，天天有几次。

EDG-给我冲 · 2024 年4 月 28 日 02:11

影响太大。不敢升级。

呢莫不爱吃鱼 · 2024 年4 月 28 日 02:15

业务调整，导致oom了？？

EDG-给我冲 · 2024 年4 月 28 日 02:16

没有，不是oom。

Jellybean · 2024 年4 月 28 日 02:25

楼主先去排查下集群的Dashboard和TiDB 相关的 Grafana面板，应该可以收集到一些有用的信息

AN_12 · 2024 年4 月 28 日 02:36

不是OOM的化，找个环境升级看看能不能复现？

EDG-给我冲 · 2024 年4 月 28 日 02:37

唉，dashboard 中没有看到什么慢 sql， grafana中看曲线也没发现什么异常。太难了。

h5n1 · 2024 年4 月 28 日 02:44

升级最新版，保准能治好，一般.0的版本都是bug多多

EDG-给我冲 · 2024 年4 月 28 日 02:52

在线热升级对业务影响多大。怎样尽可能的无感升级。

shigp_TIDBER · 2024 年4 月 28 日 02:57

感觉不像是 bug，毕竟之前用的挺稳定。应该从磁盘，内存方面做监控，然后在分析。