【 TiDB 使用环境】生产环境
【 TiDB 版本】v7.1.5
【复现路径】做过哪些操作出现的问题
背景:tikv节点本来是绑定了numa,但是上面还跑了很多其他的服务没法做numa绑定,争抢资源 会导致tikv oom,所以今天决定去掉tikv numa绑定。
但是去掉tikv numa绑定后 服务器负载飙升
【其他附件:截图/日志/监控】
【 TiDB 使用环境】生产环境
【 TiDB 版本】v7.1.5
【复现路径】做过哪些操作出现的问题
背景:tikv节点本来是绑定了numa,但是上面还跑了很多其他的服务没法做numa绑定,争抢资源 会导致tikv oom,所以今天决定去掉tikv numa绑定。
但是去掉tikv numa绑定后 服务器负载飙升
【其他附件:截图/日志/监控】
arm还是x86?x86建议直接把numa关了
x86_64的
numa 不会有这么大杀伤力,看看业务负载有没有变化
x86可以考虑直接把numa关了,把全部的内存释放出来
我回退了。。就好了,重新绑上numa负载就下来了, 业务上没啥变化
按理来说x86的numa没太明显效果
我实际试着,,,天差地别,我也以为应该没啥影响的所以才取消了。。
看了下 y 轴绝对增量并没有很高,增加了 2-3 个 vcore 的消耗。
可以 numactl --hardware 看下 node distances 跨 numa 的差异
可以调整 TiKV 配置和服务器参数,服务器内存是多少
加点资源,说不定就好了…
主机规格多大呀,截图上最大 3 个 core 呀
服务器资源充足啊,256G内存,48核
内存available 还有67G 吧 ,tikv绑定了1,可能没绑的进程也随便用到了1 抢占资源
哪最好把这些资源的 NUMA 规划放出来,如果这样的配置,只上一个 tikv 节点的实例,没那么多毛病
感觉是跨numa访问导致的cpu负载升高
应该是的
有那条件那肯定啊。
原来是只有tikv numa 1绑定。
其他的 elasticsearch / python xxxx 都没做绑定 ,tikv出现oom。
然后想着tikv也不绑了 混着用,去掉tikv numa绑定后 出现这问题。
后来再绑上负载就下来了。