systemd[1]: tidb-4000.service: main process exited, code=exited, status=2/INVALIDARGUMENT

不需要全部,不过范围最好能更大点。 stderr.log 中只看到了一堆栈,最好能看到相关的报错信息。

tidb_stderr.log.gz (528.9 KB)

stderr里面没有时间,所以我把整个都贴上来了

看上去和内存有关,麻烦重新上传下监控里 overview 的截图,之前的截图挂了,打不开。

还是看不了

FireShot Capture 005 - Tidb-Cluster-Overview - Grafana - grafana.lecloudpay.com.png.gz (4.0 MB)

stderr里面的cannot allocate memory 错误信息是上次事发的时候报出来的吗?因为日志本身没有时间信息

dmesg -T | grep tidb-server
[Tue Oct 8 17:38:52 2019] [28903] 1000 28903 8501322 7998385 15732 0 0 tidb-server
[Tue Oct 8 17:38:52 2019] Out of memory: Kill process 28903 (tidb-server) score 977 or sacrifice child
[Tue Oct 8 17:38:52 2019] Killed process 28903 (tidb-server) total-vm:34005288kB, anon-rss:31993540kB, file-rss:0kB, shmem-rss:0kB
[Tue Oct 8 17:38:53 2019] [28904] 1000 28903 8501322 7999137 15732 0 0 tidb-server
[Tue Oct 8 17:38:53 2019] Out of memory: Kill process 28904 (tidb-server) score 978 or sacrifice child
[Tue Oct 8 17:38:53 2019] Killed process 28904 (tidb-server) total-vm:34005288kB, anon-rss:31996544kB, file-rss:4kB, shmem-rss:0kB
[Tue Oct 22 09:30:27 2019] tidb-server invoked oom-killer: gfp_mask=0x201da, order=0, oom_score_adj=0
[Tue Oct 22 09:30:27 2019] tidb-server cpuset=/ mems_allowed=0
[Tue Oct 22 09:30:27 2019] CPU: 0 PID: 32741 Comm: tidb-server Not tainted 3.10.0-957.21.3.el7.x86_64 #1
[Tue Oct 22 09:30:27 2019] [32741] 1000 32741 8450085 8023881 15760 0 0 tidb-server
[Tue Oct 22 09:30:27 2019] Out of memory: Kill process 32741 (tidb-server) score 981 or sacrifice child
[Tue Oct 22 09:30:27 2019] Killed process 32741 (tidb-server) total-vm:33800340kB, anon-rss:32095524kB, file-rss:0kB, shmem-rss:0kB

因为去年发生过oom

您好
这是一个已经问题,已经被https://github.com/pingcap/tidb/pull/12767 修复,建议您升级到更新的版本。

需要升级到几点几以上才修复这个问题呢?

3.0.6 及以上

好的,辛苦大佬了

:+1: ,我再记录下
[问题分析]

  1. 检查 message 日志包含 tidb-server.4000 hold-off time over scheduling restart ,tidb 进程异常重启

  2. 在 tidb_stderr.log 中包含 concurrent map read and map write 关键字

  3. 查找对应的 github issue https://github.com/pingcap/tidb/pull/12767

  4. 在 3.0.6 之后版本修复,请尽量升级到最新版本,多谢。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。