systemd[1]: tidb-4000.service: main process exited, code=exited, status=2/INVALIDARGUMENT

tidb version

v3.0.1

问题描叙:

①.应用侧:

Communications link failure

②.db侧tidb server的日志tidb.log

[root@TIDB004 log]# grep “Welcome to TiDB” tidb.log
[2020/07/19 21:31:10.048 +08:00] [INFO] [printer.go:41] [“Welcome to TiDB.”] [“Release Version”=v3.0.1] [“Git Commit Hash”=9e4e8da3c58c65123db5f26409759fe1847529f8] [“Git Branch”=HEAD] [“UTC Build Time”=“2019-07-16 01:03:40”] [GoVersion=“go version go1.12 linux/amd64”] [“Race Enabled”=false] [“Check Table Before Drop”=false] [“TiKVMin Version”=2.1.0-alpha.1-ff3dd160846b7d1aed9079c389fc188f7f5ea13e]
[2020/07/19 21:39:18.548 +08:00] [INFO] [printer.go:41] [“Welcome to TiDB.”] [“Release Version”=v3.0.1] [“Git Commit Hash”=9e4e8da3c58c65123db5f26409759fe1847529f8] [“Git Branch”=HEAD] [“UTC Build Time”=“2019-07-16 01:03:40”] [GoVersion=“go version go1.12 linux/amd64”] [“Race Enabled”=false] [“Check Table Before Drop”=false] [“TiKVMin Version”=2.1.0-alpha.1-ff3dd160846b7d1aed9079c389fc188f7f5ea13e]
[2020/07/19 22:25:43.549 +08:00] [INFO] [printer.go:41] [“Welcome to TiDB.”] [“Release Version”=v3.0.1] [“Git Commit Hash”=9e4e8da3c58c65123db5f26409759fe1847529f8] [“Git Branch”=HEAD] [“UTC Build Time”=“2019-07-16 01:03:40”] [GoVersion=“go version go1.12 linux/amd64”] [“Race Enabled”=false] [“Check Table Before Drop”=false] [“TiKVMin Version”=2.1.0-alpha.1-ff3dd160846b7d1aed9079c389fc188f7f5ea13e]
[2020/07/19 22:52:31.048 +08:00] [INFO] [printer.go:41] [“Welcome to TiDB.”] [“Release Version”=v3.0.1] [“Git Commit Hash”=9e4e8da3c58c65123db5f26409759fe1847529f8] [“Git Branch”=HEAD] [“UTC Build Time”=“2019-07-16 01:03:40”] [GoVersion=“go version go1.12 linux/amd64”] [“Race Enabled”=false] [“Check Table Before Drop”=false] [“TiKVMin Version”=2.1.0-alpha.1-ff3dd160846b7d1aed9079c389fc188f7f5ea13e]
[2020/07/19 23:23:16.298 +08:00] [INFO] [printer.go:41] [“Welcome to TiDB.”] [“Release Version”=v3.0.1] [“Git Commit Hash”=9e4e8da3c58c65123db5f26409759fe1847529f8] [“Git Branch”=HEAD] [“UTC Build Time”=“2019-07-16 01:03:40”] [GoVersion=“go version go1.12 linux/amd64”] [“Race Enabled”=false] [“Check Table Before Drop”=false] [“TiKVMin Version”=2.1.0-alpha.1-ff3dd160846b7d1aed9079c389fc188f7f5ea13e]

重启日志前后没有明显的报错信息,但有很多写冲突和重试,日志中未发现oom(dmesg -T | grep tidb-server)和panic(grep -i panic tidb.log)

db的服务器的uptime正常

systemd的日志中发现有异常
image

tidb server重启的时间和systemd异常的时间是吻合的

  1. 麻烦上传下问题发生前后的 message 日志 和 tidb.log,最好上传文本
  2. 麻烦上传 over-view 监控,多谢。

message日志指的是什么日志?

操作系统的日志,通常在 /var/log/目录下,message 日志,找到问题发生时的日志。

好的,3q

message.log (5.9 KB)

tidb.log (16.8 KB)

从 tidb.log 日志看,22:11:17 最后打印日志, 22:11:35 重启了 tidb-server。 从 message 日志看,22:10 :01 到 22:20:01 中间没有打印日志,20分之后 tidb 进程有多次异常退出。 请反馈下 over-view 和 tidb 这段时间的监控图,多谢。

over-view 的日志呢? 一开始就希望反馈这个信息了,可以使用以下方法收集,多谢

打开 grafana 监控,先按 d 再按 shift+e 可以打开所有监控项。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

overview

https://vi0.xiu123.cn/live/2020/07/20/17/1003v1595237780732957693.jpg

tidb

https://vi2.xiu123.cn/live/2020/07/20/17/1003v1595237901920415718.jpg

请问这个监控是从22点日志出问题时开始取的吗?看起来好像是23点的?从日志看没有整体占用特别多的情况。麻烦帮忙再确认下监控时间和日志是否匹配,多谢

其中message.log和截图时间是对的上的,tidb.log取的是22点的,但是23点的日志和22点的日志是差不多的,db的cpu和内存等资源的占用远没有达到瓶颈,这一点是没有疑问的

tidb.log中有好几次重启,几次重启的前后日志都一样的,所以我截取了其中的一次

tidb.log的日志我已经换成23:00的了

  1. 暂时没有找到比较好的方向,检查了 systemd 的这个报错,看网上其他进程类似报错,可能是使用其他用户启动了。 想请教下,这个问题出现之前, 有做过什么修改吗? 比如操作系统升级,或者 tidb 集群升级之类的?
  2. 您有两个 tidb ,另一个 tidb 是否也频繁重启? 他们之前的 tidb 版本和 操作系统版本是否一致?
  3. 检查下重启的主机进程 ps -ef | grep tidb-server ,多谢。

1.出现这个问题(偶现)的时候,没有做任何升级之类的操作,后面自行恢复正常
2.发生问题的时候,两个tidb server是交替重启的
3.自行恢复正常后,一切正常,业务侧也正常

@AndyHooo
您好,麻烦上传一下 tidb_stderr.log。

截取了一部分那段时间的日志,你看看够吗

tidb_stderr.log (28.4 KB)

最好能上传完整的日志,谢谢

那个时间段的日志是全的,没必要把整个tidb_stderr.log文件都给你吧,大佬?