5.4OOM问题频发,新版本有没有这方面的优化

没有日志?

有这个日志的,但是是按时间分的,之前的日志没了

你这个不是今天重启的吗?

这是什么环境,测试环境考虑升个级试试

日志里面你发的那个welcome to tikv

看release notes确实有很多oom的优化

说下我的情况, 生产坏境上个版本5.4,tidb有个实例,有重启情况。上述排障方式和其他的方式,没解决问题。 升了6.5.3后,没再出现。至今原因未知。 :face_with_peeking_eye:

OOM 直接把tikv kill掉了,原因不好查

demsg 看看。

Mar 15 16:18:41 kernel: Out of memory: Kill process 859 (tikv-server) score 628 or sacrifice child
Mar 15 16:18:41 kernel: Killed process 859 (tikv-server) total-vm:223622408kB, anon-rss:126067940kB, file-rss:1344kB, shmem-rss:0kB

建议不要混合部署,版本选择上也可以选择6.5以上的版本,OOM 会少很多

找到了:

这啥? 自动重启了?

5.4有参考文档
混合部署拓扑 | PingCAP 文档中心

tikv内存限制没生效吗

呃,别这么写96636764160吧,你设定90GB,你就写 90GB,这个配置默认单位我记得不是 bit,下面的 raftstore.capacity 也是,都改一下,带上单位,reload 下,难改你参数没生效

确定是没生效吗

54、56、57、58 这四台机器的 kv oom 重启次数多吗?机器配置啥样的

你执行下SHOW config WHERE NAME LIKE ‘%storage.block-cache.capacity%’
看下结果
另外你60和61上面不是tidb-server和tikv混合部署吗?
一个机器250G内存,250/2*0.45=56,storage.block-cache.capacity设置成56G就行,然后numa有2个或以上节点的话,通过numa再将tidb和tikv资源隔离下,5.4的话,tidb内存限制不好做,只能通过mem-quota-query限制单个sql的内存,或者server-memory-quota设置总内存(实验特性)。