elvizlai
(Elvizlai)
1
凌晨 2:15 有数据库全量备份任务,造成集群压力较大。
查看相关时间点的 /var/log/messages, 无 OOM 日志
systemctl status tikv-20160
Loaded: loaded (/etc/systemd/system/tikv-20160.service; enabled; vendor preset: disabled)
Active: active (running) since 四 2020-09-10 02:15:30 CST; 1 day 7h ago
Main PID: 10441 (tikv-server)
Tasks: 147
Memory: 27.1G
CGroup: /system.slice/tikv-20160.service
└─10441 bin/tikv-server --addr 0.0.0.0:20160 --advertise-addr 172.19.20.138:20160
未产生重启
但通过 dashboard 集群信息
查看状态,其于 2:15 发生重启(疑似压力过大造成的网络问题?但不是重启)
qizheng
(qizheng)
2
检查下 tikv 进程的启动时间以及 tikv 日志对应时间是否有 Welcome 关键字以及 Error,Panic 等报错,看看有没有相关日志线索。
elvizlai
(Elvizlai)
3
systemctl status 都显示启动时间不是昨天晚上,那么不会含有 Welcome,本身通过grep日志查看也没有 Welcome,tikv 实际并未重启。
elvizlai
(Elvizlai)
5
哦,确实是,关于重启部分,时间线有点混乱,看错了。
那这块转到 tikv 还是我另开新 issue?
重启时间点如下:
tikv.log.2020-09-07-10:07:45.744449401:[2020/09/07 02:15:44.197 +08:00] [INFO] [lib.rs:94] ["Welcome to TiKV"]
tikv.log.2020-09-09-10:12:23.859051745:[2020/09/09 02:17:05.291 +08:00] [INFO] [lib.rs:94] ["Welcome to TiKV"]
tikv.log.2020-09-10-10:12:27.499579172:[2020/09/10 02:16:29.401 +08:00] [INFO] [lib.rs:94] ["Welcome to TiKV"]
tikv.log.2020-09-13-10:12:36.406177257:[2020/09/13 02:16:26.424 +08:00] [INFO] [lib.rs:94] ["Welcome to TiKV"]
目前使用 dumpling
在 2:15
执行每日全量数据备份。
执行参数如下:
/opt/tidb-toolkit/dumpling -h $HOSTNAME -P $PORT -u $USER -p$PASSWORD -t 2 -F 1024m -B $i -o $DIR/$datatime/$i --loglevel debug >> $DIR/$datatime/export-$datatime.log
TiKV 日常所剩内存 12G 左右
OOM 时刻的 TiKV 日志(std_err日志为空)
tikv.log.2020-09-13-10:12:36.406177257.zip (1.1 MB)
请问目前需要排查的问题的是 TiKV 为什么 OOM 么?
如果是的话,麻烦先按照 tidb-map 中 TiKV oom 的排查手段看下是否是 4.2.1 和 4.2.2 的原因
https://github.com/pingcap/tidb-map/blob/master/maps/diagnose-map.md#42-tikv-oom