tikv-server节点定时自动重启故障排查

Bug 反馈
tidb版本:V5.0.1
操作系统版本:CentOS Linux release 7.6.1810
【 Bug 的影响】
每隔5几天都会出现tikv-server节点重启情况,会导致任务失败
[[region_id=7495640]
[2021/09/13 09:47:08.289 +08:00] [INFO] [lib.rs:89] [“Welcome to TiKV”]
[2021/09/13 09:47:08.289 +08:00] [INFO] [lib.rs:94] [“Release Version: 5.0.1”]
[2021/09/13 09:47:08.289 +08:00] [INFO] [lib.rs:94] [“Edition: Community”]
[2021/09/13 09:47:08.289 +08:00] [INFO] [lib.rs:94] [“Git Commit Hash: e26389a278116b2f61addfa9f15ca25ecf38bc80”]
[2021/09/13 09:47:08.289 +08:00] [INFO] [lib.rs:94] [“Git Commit Branch: heads/refs/tags/v5.0.1”]
[2021/09/13 09:47:08.289 +08:00] [INFO] [lib.rs:94] [“UTC Build Time: 2021-04-23 08:24:13”]
[2021/09/13 09:47:08.289 +08:00] [INFO] [lib.rs:94] [“Rust Version: rustc 1.51.0-nightly (bc39d4d9c 2021-01-15)”]
[2021/09/13 09:47:08.289 +08:00] [INFO] [lib.rs:94] ["Enable Features: jemalloc mem-profiling

dmesg|grep -i kill 一样没有 oom kill 的记录

集群架构

【错误日志截图】
image
【诊断日志截图】

【其他背景信息或者截图】
如集群拓扑,系统和内核版本,应用 app 信息等;如果问题跟 SQL 有关,请提供 SQL 语句和相关表的 Schema 信息;如果节点日志存在关键报错,请提供相关节点的日志内容或文件;如果一些业务敏感信息不便提供,请留下联系方式,我们与您私下沟通。

请上传 0913 tikv异常 前后 1h 时间节点的 如下信息

  1. tidb-over 监控
  2. 问题 tikv 的 tikvlog
  3. 问题 tikv 的 tikv 的 error log
  4. 查看问题 tikv 上 是否存在 coredump 文件 ,如有一并提供
1赞

tikv.log.2021-09-13-15_30_34.444702911 (17.6 MB) tikv_stderr.log (3.1 KB) yto-bigdata-tidb-Overview_2021-09-14T12_25_02.498Z.json (82.3 KB)

tidb-overview 的监控看下来 没有导出完整 请将所有内容展开后再导出

同时提供下 tikv 时间段内的监控

1赞

yto-bigdata-tidb-Overview_2021-09-15T01_08_40.901Z.json (7.4 MB)

看监控 你的 129 和 135 两台都是 OOM 了


并看到 raftlog CPU 两台服务器都有升高现象

几个优化建议

  1. 调整 tikv block_cache 默认是当前内存的 45%,你单机双实例部署 需要手动调整 host 内存数量/tikv 节点数量 *45%
    https://docs.pingcap.com/zh/tidb/stable/tikv-configuration-file#storageblock-cache
  2. 你的写入存在热点 从 raftlog 监控有看到较明显的热点问题
    建议看下官方文档的写热点优化