华为泰山服务器ARM架构部署TiDBV4.0.10

lezhang0912 · 2021 年7 月 2 日 01:47

【概述】华为泰山服务器ARM架构下新建虚拟机集群，部署TiDBV4.0.10，发展tikv所在节点占用内存过高

【背景】在arm服务器上，使用KVM虚拟出6个虚拟机，其中pd,tidb实例所在的虚拟机配置为cpu:8v,内存16G, pd与tidb共同占用3个节点; tikv实例所在的虚拟机配置为cpu:8v,内存16G,tikv单独占用3个节点。安装完成后，发现tikv节点占用内存过高，达到91%。将tikv实例所在的虚拟机配置内存调大为48G,占用内存依然达到81.2%

【现象】prometheus和Alertmanager告警node_memory占用过高

【业务影响】tidb集群无法正常使用

【TiDB 版本】V4.0.10

这道题我不会 · 2021 年7 月 2 日 02:04

1.这里内存占用指的是 tikv 进程占用的还是整个虚拟机的内存使用率？
2.可以先尝试设置下 tikv 节点的 storage.block-cache 大小，reload 集群后看下是否有效，参考：
https://docs.pingcap.com/zh/tidb/v4.0/tikv-configuration-file#storageblock-cache

lezhang0912 · 2021 年7 月 2 日 06:54

谢谢大佬回答，是tikv 进程占用的整个虚拟机的内存使用率，目前已确定是虚拟机设置问题，虚拟机需要将内存绑定到与CPU在同一NUMA节点上，参考虚拟机内存与CPU绑定
另外，出现个告警"NODE_disk_write_latency_more_than_16ms"，这是网络原因还是磁盘性能太差导致的呢？

hey-hoho · 2021 年7 月 2 日 07:09

看看是不是透明大页问题，参考下https://asktug.com/t/topic/93719

这道题我不会 · 2021 年7 月 2 日 08:21

你这边服务器的底层存储类型是 SSD 吗？

lezhang0912 · 2021 年8 月 17 日 06:54

不是的

这道题我不会 · 2021 年8 月 17 日 07:23

tikv 节点需要使用 SSD 磁盘，否则磁盘性能不达标，出现告警 “NODE_disk_write_latency_more_than_16ms” 是预期内现象。

system · 2022 年10 月 31 日 19:16

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。