tidb从5.1.0版本升级到5.4.3版本后tidb节点频繁OOM

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.3
【复现路径】升级版本的4天后,tidb节点频繁OOM
【遇到的问题:问题现象及影响】
tidb从5.1.0版本升级到5.4.3版本后tidb节点频繁OOM
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

12-19号20:38分完成升级,之后开始频繁的表分析失败

12-23号21:39后整个集群 tidb节点内存使用过高,开始循环oom


oom前有很多这种日志打印

image

tidb_analyze_version 从2 调整到1
tidb_auto_analyze_ratio从0.2调整到0.5
开始结束时间限制了早上9点到11点
调整了统计信息收集相关参数后当前集群已恢复稳定
现在的问题是表信息一直没有再采集了,后续触发统计信息采集是否还有问题,版本升级前一直是稳定的,这个跟版本差异有关吗,想知道下具体的原因
【附件:截图/日志/监控】

前面是如何确认 oom 是和 analyze 相关的? 可以搜下 tidb-server oom 前的日志 ”expensive“ 是否有大sql

analyze version 倒是有个 oom 的bug ,但是v5.4.3 已经修复了
https://github.com/pingcap/tidb/pull/28729

看看analyze相关参数是不是设置的比较大,另外看一下有没有大region https://docs.pingcap.com/zh/tidb/stable/pd-control#region-topsize-limit