监控TiKV内存数据异常

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:v3.0.5
  • 【问题描述】:监控数据异常,请问如何修正
  1. 请问具体是哪个面版下的监控?
  2. 请给出操作系统22:40—22:50的监控值, 实际打到90%是根据哪个命令查看的?

1.TiKV的监控面板

2.top命令,free -h

  1. 请问一个服务器有部署多个实例吗?
  2. 请查看overview面板—>systeminfo------>memory available , 当时的可用空间剩余是多少,多谢

双实例

您好: 您把实例和ip都隐藏了,但是从监控看,应该是符合的。 tikv里的内存是实例的内存值,你可以把同一个实例的内存相加。 overview里的可用内存也能看到这些实例几乎没有可以使用的内存了。

不正常吧 overview里面实例也是十个,并不是双实例展示,就点一台机器给你看吧

您好:

  1. 从detail-tikv中的memory可以看到avg(process_resident_memory_bytes{instance=~"$instance"}) by (instance),是根据instance取的内存信息,所以你可以看到每个tikv实例的内存信息.
  2. 从你的top信息可以看到服务器有120G的内存
  3. overview里也是node信息,可以看到有些node的可用内存已经快到0了,所以可以证明内存消耗非常大,和free -h监控结果是一致的.

overview里也是instance信息,只是从可用内存来说明

单从你的这一点说就监控不正常,overview里面的显示是一台机器的并没有把实例分开来,我有10台tikv机器,20个实例,但是overview里面只显示了10个机器的,内存使用率并没有对上,3.0版本的是按机器显示的;2.0版本的有分实例显示

您好:
1. 这里是我之前修改过,查看了新的集群,overview这里是node_memory_MemAvailable_bytes是节点的内存。 你可以看一下你的grafana监控里是如何取值的.
image

    2. 对于解释你的问题,这是实例需要相加,还有什么疑问吗?

不是很理解 ,我就是想看准确的内存占用信息。如果是展示各个实例的信息,分实例的话也应该显示20个节点的

需要怎么修改才能看到所有的实例信息呢?官网上好像对监控的参数调整没有说明

你好:

   1. 我看不到你的截图,但是从测试环境看,这里展示了每个实例的内存信息


2. 麻烦先确认下,是有些服务器的两个节点都没有展示,还是说所有服务器都只展示了一个实例。
方便的话,根据结果,提高一两个节点的图展示下,都隐藏了,没法查看

没有隐藏。截图里面就是十个ip。所有服务器都只展示了一个。我2.0的集群是可以展示全部的

您好:

   1. 麻烦截图看一下inventory.ini的信息
   2. 这里看到的都是20180的实例,其他实例是有过一次扩容吗?
   3. 挑选任意一台只展示一个tikv实例的服务器,执行以下命令,查看是否展示本机的监控指标:
        curl http://<ip>:<tikv_status_port>/metrics | more
        ![image|690x499](upload://buXwN0vIhKjRwlcQP5ZiXdEUkHO.png) 
  1. 如果展示,继续查看Prometheus所在主机是否能够拉取监控信息,继续检查grafana,这条链路上是否有端口未放通,多谢

,,,我的tikv的端口是20171,20172这种的,,,没有20180 curl 监控界面上的端口2017的拿不到信息,20180能拿到信息,,是哪里的配置有问题吗 懵逼了

  1. 上面的回答麻烦都反馈下信息,inventory.ini信息
  2. 根据你的inventory.ini信息里的tikv端口,可以在服务器上试一下能否取到
  3. 这个集群之前有过其他安装吗? 比如销毁过集群,之后又重新安装扩展扩容过。 每次的问题,麻烦都反馈下,不然一个问题要重复确认,多谢

1.inventory.ini


2.扩容不扩容我不清楚,这个集群不是我部署的。但是扩容一般是加机器而不是在一个机器上增加实例。其他的信息是:集群有进行过滚动升级

3.这个问题我已经回答了,20180有返回信息。20171、20172没有
机器上检测端口发现 端口都存在,

  1. 请检查下inventory.ini里的集群名称 cluster_name

  2. 请在grafana界面查看source源信息是否匹配

我没看错…

从你的配置里看应该是20171和20172,所以希望可以确认下,为什么展示的不一致,不是说你看错了。 现在需要查看问题。是否有可能是source 源的问题,在排查问题。