华为泰山服务器ARM架构部署TiDBV4.0.10

【概述】华为泰山服务器ARM架构下新建虚拟机集群,部署TiDBV4.0.10,发展tikv所在节点占用内存过高

【背景】在arm服务器上,使用KVM虚拟出6个虚拟机,其中pd,tidb实例所在的虚拟机配置为cpu:8v,内存16G, pd与tidb共同占用3个节点; tikv实例所在的虚拟机配置为cpu:8v,内存16G,tikv单独占用3个节点。安装完成后,发现tikv节点占用内存过高,达到91%。将tikv实例所在的虚拟机配置内存调大为48G,占用内存依然达到81.2%

【现象】prometheus和Alertmanager告警node_memory占用过高

【业务影响】tidb集群无法正常使用

【TiDB 版本】V4.0.10

2 个赞

1.这里内存占用指的是 tikv 进程占用的还是整个虚拟机的内存使用率?
2.可以先尝试设置下 tikv 节点的 storage.block-cache 大小,reload 集群后看下是否有效,参考:
https://docs.pingcap.com/zh/tidb/v4.0/tikv-configuration-file#storageblock-cache

谢谢大佬回答,是tikv 进程占用的整个虚拟机的内存使用率,目前已确定是虚拟机设置问题,虚拟机需要将内存绑定到与CPU在同一NUMA节点上,参考虚拟机内存与CPU绑定
另外,出现个告警"NODE_disk_write_latency_more_than_16ms",这是网络原因还是磁盘性能太差导致的呢?

看看是不是透明大页问题,参考下https://asktug.com/t/topic/93719

你这边服务器的底层存储类型是 SSD 吗?

不是的

tikv 节点需要使用 SSD 磁盘,否则磁盘性能不达标,出现告警 “NODE_disk_write_latency_more_than_16ms” 是预期内现象。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。