dashboard tikv 节点状态显示异常

凌晨 2:15 有数据库全量备份任务,造成集群压力较大。

查看相关时间点的 /var/log/messages, 无 OOM 日志

systemctl status tikv-20160

   Loaded: loaded (/etc/systemd/system/tikv-20160.service; enabled; vendor preset: disabled)
   Active: active (running) since 四 2020-09-10 02:15:30 CST; 1 day 7h ago
 Main PID: 10441 (tikv-server)
    Tasks: 147
   Memory: 27.1G
   CGroup: /system.slice/tikv-20160.service
           └─10441 bin/tikv-server --addr 0.0.0.0:20160 --advertise-addr 172.19.20.138:20160

未产生重启

但通过 dashboard 集群信息查看状态,其于 2:15 发生重启(疑似压力过大造成的网络问题?但不是重启)

检查下 tikv 进程的启动时间以及 tikv 日志对应时间是否有 Welcome 关键字以及 Error,Panic 等报错,看看有没有相关日志线索。

systemctl status 都显示启动时间不是昨天晚上,那么不会含有 Welcome,本身通过grep日志查看也没有 Welcome,tikv 实际并未重启。

这里不是显示了吗? 是发生过重启。

哦,确实是,关于重启部分,时间线有点混乱,看错了。

那这块转到 tikv 还是我另开新 issue?

重启时间点如下:

tikv.log.2020-09-07-10:07:45.744449401:[2020/09/07 02:15:44.197 +08:00] [INFO] [lib.rs:94] ["Welcome to TiKV"]
tikv.log.2020-09-09-10:12:23.859051745:[2020/09/09 02:17:05.291 +08:00] [INFO] [lib.rs:94] ["Welcome to TiKV"]
tikv.log.2020-09-10-10:12:27.499579172:[2020/09/10 02:16:29.401 +08:00] [INFO] [lib.rs:94] ["Welcome to TiKV"]
tikv.log.2020-09-13-10:12:36.406177257:[2020/09/13 02:16:26.424 +08:00] [INFO] [lib.rs:94] ["Welcome to TiKV"]

目前使用 dumpling2:15 执行每日全量数据备份。

执行参数如下:

/opt/tidb-toolkit/dumpling -h $HOSTNAME -P $PORT -u $USER -p$PASSWORD -t 2 -F 1024m -B $i -o $DIR/$datatime/$i --loglevel debug >> $DIR/$datatime/export-$datatime.log

TiKV 日常所剩内存 12G 左右

OOM 时刻的 TiKV 日志(std_err日志为空)
tikv.log.2020-09-13-10:12:36.406177257.zip (1.1 MB)

请问目前需要排查的问题的是 TiKV 为什么 OOM 么?
如果是的话,麻烦先按照 tidb-map 中 TiKV oom 的排查手段看下是否是 4.2.1 和 4.2.2 的原因

https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md#42-tikv-oom