【 TiDB 使用环境`】生产环境
【 TiDB 版本】v5.2.1
【遇到的问题】tidb机器内存使用十分不均匀,几乎一直保持几倍的差距。昨晚还因为有台内存突然飙高,导致oom重启了。
【复现路径】日常使用
【问题现象及影响】
集群的拓扑是怎样的,不同种类的节点内存消耗不同正常的。
目前来说,由于机器资源紧缺,tidb、tikv、pd都部署在三个相同节点,每个模块都是三台。机器内存256g,cpu48核
主要每次单台机器重启后,其他两台都会拉高,一直下不来,重启的机器一直处于低内存消耗的状态。
可以看看leader是否均衡。另外tidb server和tikv混布较容易oom。
tidb server 前面用的负责均衡策略是咋样的?用什么样的分发策略?
因为是混布,先top下看看进程占用确定是哪部分内存不均衡吧。
用的是HaProxy,分发策略是默认的
好的, 我观察观察
这个已经解决了,具体问题是由于tidb gc失败后内存泄露,导致内存只增不减,而由于tidb和tikv部署在同一个节点,导致系统杀应用的时候把tikv给杀了。tikv重启后tidb又因为内存不足给杀了。最后通过调查gc异常的情况(主要报错集中在 analyze时间过长),调整了参数tidb_gc_life_time参数。剩下的为:字段太短,导致收集失败(https://asktug.com/t/topic/543008)。
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。