【 TiDB 使用环境`】生产环境
【 TiDB 版本】V5.4
【遇到的问题】
我这里生产遇到一个比较棘手的问题,TiDB Server 会没有规律的隔个几天就会突然间宕机。系统层面表现为磁盘IO一瞬间暴涨到巅峰,CPU也一瞬间暴涨到巅峰。然后就服务器不可用了,ssh都连不上去那种。这里只有TiDB Server出现宕机,3台TIKV一切正常。临时解决办法只能去阿里云后台重启机器才能恢复。
配置:
机器1:8C16G 500G ESSD磁盘。部署服务:TiDB Server, PD 监控(prometheus,grafana)。
机器2: 16C32G 500G ESSD磁盘。部署服务:TiKV-1
机器3: 16C32G 500G ESSD磁盘。部署服务:TiKV-2
机器4: 16C32G 500G ESSD磁盘。部署服务:TiKV-3
tidb server 确实是混合部署了不太规范。但是平常查看监控,确实是没啥压力,本身我们应用的用户量不大,访问量也不大。平常数据库也是在2k QPS上下,基本上来看资源负载都是在50以下。
但是就是会不定期出现瞬间IO爆炸然后宕机的情况。下面附上阿里云后台硬件监控截图:
这种情况我这里已经出现至少4次了,每次都只能阿里云后天重启机器解决。我尝试看了系统该时间点前后的的tidb日志,pd日志,慢sql,没发现什么特别的异常,也有可能存在我认知外没排查到的地方。
我初步怀疑是混合部署监控有问题,我猜是prometheus或者grafana要定期做一些数据清理,然后与tidb或者pd有磁盘io上的冲突,最终导致磁盘IO瞬间拉满,接着宕机。但是这个只是我的猜想,还得各位大佬帮忙判断一下。
我在另外一个帖子提了相关的问题,也是因为这个原因。prometheus监控如何从重新部署?
麻烦各位帮忙看看,非常感谢