【概述】华为泰山服务器ARM架构下新建虚拟机集群,部署TiDBV4.0.10,发展tikv所在节点占用内存过高
【背景】在arm服务器上,使用KVM虚拟出6个虚拟机,其中pd,tidb实例所在的虚拟机配置为cpu:8v,内存16G, pd与tidb共同占用3个节点; tikv实例所在的虚拟机配置为cpu:8v,内存16G,tikv单独占用3个节点。安装完成后,发现tikv节点占用内存过高,达到91%。将tikv实例所在的虚拟机配置内存调大为48G,占用内存依然达到81.2%
【现象】prometheus和Alertmanager告警node_memory占用过高
【业务影响】tidb集群无法正常使用
【TiDB 版本】V4.0.10
2 个赞
这道题我不会
(Lizhengyang@PingCAP)
2
1.这里内存占用指的是 tikv 进程占用的还是整个虚拟机的内存使用率?
2.可以先尝试设置下 tikv 节点的 storage.block-cache 大小,reload 集群后看下是否有效,参考:
https://docs.pingcap.com/zh/tidb/v4.0/tikv-configuration-file#storageblock-cache
谢谢大佬回答,是tikv 进程占用的整个虚拟机的内存使用率,目前已确定是虚拟机设置问题,虚拟机需要将内存绑定到与CPU在同一NUMA节点上,参考虚拟机内存与CPU绑定
另外,出现个告警"NODE_disk_write_latency_more_than_16ms",这是网络原因还是磁盘性能太差导致的呢?
看看是不是透明大页问题,参考下https://asktug.com/t/topic/93719
这道题我不会
(Lizhengyang@PingCAP)
7
tikv 节点需要使用 SSD 磁盘,否则磁盘性能不达标,出现告警 “NODE_disk_write_latency_more_than_16ms” 是预期内现象。
system
(system)
关闭
8
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。