tikv 莫名挂掉,日志无相关信息

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:3.0.0-rc.1
  • 【问题描述】:
    tikv日志:
    image

pd日志:
[2020/03/13 03:30:18.741 +08:00] [ERROR] [heartbeat_streams.go:121] [“send keepalive message fail”] [target-store-id=2] [error=EOF] [stack=“github.com/pingcap/log.Error
\t/home/jenkins/workspace/release_tidb_3.0/go/pkg/mod/github.com/pingcap/log@v0.0.0-20190214045112-b37da76f67a7/global.go:42
github.com/pingcap/pd/server.(*heartbeatStreams).run
\t/home/jenkins/workspace/release_tidb_3.0/go/src/github.com/pingcap/pd/server/heartbeat_streams.go:121”]

tidb日志:
[2020/03/13 03:33:58.406 +08:00] [ERROR] [client.go:144] [“batchRecvLoop error when receive”] [target=10.17.64.61:20160] [error=“rpc error: code = Unavailable desc = transport is closing”] [stack=“github.com/pingcap/tidb/store/tikv.(*batchCommandsClient).batchRecvLoop
\t/home/jenkins/workspace/release_tidb_3.0/go/src/github.com/pingcap/tidb/store/tikv/client.go:144”]
[2020/03/13 03:33:58.406 +08:00] [ERROR] [client.go:167] [“batchRecvLoop re-create streaming fail”] [target=10.17.64.61:20160] [error=“rpc error: code = Unavailable desc = all SubConns are in TransientFailure, latest connection error: connection error: desc = "transport: Error while dialing dial tcp 10.17.64.61:20160: connect: connection refused"”] [stack=“github.com/pingcap/tidb/store/tikv.(*batchCommandsClient).batchRecvLoop
\t/home/jenkins/workspace/release_tidb_3.0/go/src/github.com/pingcap/tidb/store/tikv/client.go:167”]

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

  1. 感觉是系统的问题,都没来得及打印日志。 检查下/var/log/message 日志,看一下那个时候的信息3.13号。

系统 messages:


tikv 挂的时间应该是3-13 03:30 左右,也没找到对应的系统日志

麻烦您把3.13号完整的message日志上传一下,你看的是dmesg吗? 看这个不一定准

这份是 /var/log/messages 下的,没有生成dmesg文件,没有3-13号的日志; 3-12 号到 15:56 分的日志都是 usb xxxxx

网段原因不能把文件传出来。

不知道有没有其他地方能看到log

tikv 挂了主要问题是导致 其他tikv服务器产生大量日志,很快占满磁盘,不知道现在能不能指定日志保存数量,或者有tikv自动重启机制

您好: 1. 没有message日志很奇怪,查询下服务器启动时长 uptime,看下最近一次启动时什么时候 2. 如果使用的是systemd配置,tikv进程挂掉会自动启动。但是如果服务器重启,不会重启,需要手工启动。 新版本应该有日志按照天数或者容量自动拆分,可以按照这个思路,设置脚本按照容量清理

1、top 显示 up 150+ day,服务器连续运行近半年了

  1. 请问您的操作系统是什么版本?
  2. 能否发一下您的安装部署inventory.ini文件,ip可以遮挡一部分,多谢
  3. 您的message日志,现在正常打印吗? 麻烦tail -f 100行截图,多谢。

1、
操作系统:debian9:
内核版本:Linux version 4.9.82 (root@debian) (gcc version 6.3.0 20170516 (Debian 6.3.0-18+deb9u1) ) #1 SMP Tue Jun 12 05:22:13 EDT 2018

2、使用二进制文件部署安装,三台SSD,每台服各一个 TiDB,TiKV,PD

3、 /var/log/messages 文件:

  1. tikv的问题,建议升级到最新版本,tikv日志按天划分后,写脚本可以清理
  2. 二进制部署,应该没有systemd自动拉起,你的操作系统也没有记录任何信息
  3. 建议如果是正式环境,请使用标准的安装部署,这样有systemd可以自动拉起tikv。 另外版本最好可以选择GA以后的版本,多谢

了解,谢谢解答

:handshake:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。