TiKV莫名重启,TiKV leader掉底,时间段内查询失败

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.1.1
【复现路径】nothing
【遇到的问题:问题现象及影响】
集群有一台TiKV leader过一段时间就会掉底,时间不固定。查看TiKV日志发现该TiKV在那些时间点是重启了。
日志上下文如下:
【资源配置】
【附件:截图/日志/监控】


去 tikv github 提 issue 吧,感觉是遇到 bug 了。如果是已知问题,可以考虑升级,看日志是 5.1.1 版本。升级到比较新版本也可能有修复。


IO error, Cannot allocate memory.
看看OS日志?


系统日志没有OOM相关的


该机器内存是128G的,重启前没有内存升高。最近重启愈发频繁了。

https://github.com/tikv/tikv/issues/10832 我看有类似issue 还Open的

感谢。
奇怪的是,重启只发生在这一台TiKV上。不知道下线这台TiKV能否解决。

内存不够用?内存有没有故障?看看os日志

系统日志没什么问题,内存也没有问题,TiKV存放的数据盘寿命较低,会不会是这个因素导致,换盘后观察。

想知道出问题的时候IO是不是有抖动。


看详细报错信息类型好像是 IO error 一个是flush 一个是compaction的时候报错了,
看下对应的tikv leader掉底的时候是不是io满了,我有个朋友也是tikv leader掉底,然后上来
又下去 掉底。


时间点看起来是重启之后才会突增,然后慢慢降下来

这个图结合报错,内存不足导致异常的可能性比较高。图上看内存使用率都超过80%,只要内存使用稍微抖动下,就可能导致内存不足而OOM。
用root用户执行 journalctl -S ‘2022-11-29 00:20:00’ -U ‘2022-11-29 01:00:00’,看看前后有没有线索。

机器换了磁盘之后,这个问题没有再复现了。应该是磁盘寿命过低导致的这个错误。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。