【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.1.1
【复现路径】nothing
【遇到的问题:问题现象及影响】
集群有一台TiKV leader过一段时间就会掉底,时间不固定。查看TiKV日志发现该TiKV在那些时间点是重启了。
日志上下文如下:
【资源配置】
【附件:截图/日志/监控】
去 tikv github 提 issue 吧,感觉是遇到 bug 了。如果是已知问题,可以考虑升级,看日志是 5.1.1 版本。升级到比较新版本也可能有修复。
感谢。
奇怪的是,重启只发生在这一台TiKV上。不知道下线这台TiKV能否解决。
内存不够用?内存有没有故障?看看os日志
系统日志没什么问题,内存也没有问题,TiKV存放的数据盘寿命较低,会不会是这个因素导致,换盘后观察。
想知道出问题的时候IO是不是有抖动。
看详细报错信息类型好像是 IO error 一个是flush 一个是compaction的时候报错了,
看下对应的tikv leader掉底的时候是不是io满了,我有个朋友也是tikv leader掉底,然后上来
又下去 掉底。
这个图结合报错,内存不足导致异常的可能性比较高。图上看内存使用率都超过80%,只要内存使用稍微抖动下,就可能导致内存不足而OOM。
用root用户执行 journalctl -S ‘2022-11-29 00:20:00’ -U ‘2022-11-29 01:00:00’,看看前后有没有线索。
机器换了磁盘之后,这个问题没有再复现了。应该是磁盘寿命过低导致的这个错误。
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。