TIDB grafana监控问题

residentevil · 2025 年5 月 19 日 01:56

【TiDB 使用环境】生产环境
【TiDB 版本】v7.5.5
【操作系统】centos7.5
【部署方式】物理服务器
【问题复现路径】 grafana监控->PD页面中，出现2个Tombstone Stores状态的信息，从PD接口获取所有store信息都是Up状态，无异常，这块的监控采集是不是有异常，或者怎么可以清理下&重新刷新下

Kongdom · 2025 年5 月 19 日 02:07

缩容过么？
https://docs.pingcap.com/zh/tidb/stable/tiup-component-cluster-scale-in/#下线特殊处理

residentevil · 2025 年5 月 19 日 03:57

prune做过了，没用

DBRE · 2025 年5 月 19 日 04:52

下线后的store会变成tombstone, 可以理解为历史上变为tombstone的tikv数量，不用管

Kongdom · 2025 年5 月 19 日 05:33

或者试试这个方案 pd-ctl store remove-tombstone
https://docs.pingcap.com/zh/tidb/stable/pd-control/#下线-store

residentevil · 2025 年5 月 19 日 05:56

主要是PD里面没有tombstone状态的store哦

baozixiaoge · 2025 年5 月 19 日 06:16

它读取的是Prometheus的数据，不行重启一下Prometheus的节点或者把Prometheus的数据库清理一下

residentevil · 2025 年5 月 19 日 06:32

prometheus数据库怎么清理呢？

Kongdom · 2025 年5 月 19 日 06:33

那就直接重启grafana节点吧，重新应该能解决

baozixiaoge · 2025 年5 月 19 日 06:37

Prometheus安装目录的启动脚本有个默认保留天数，tidb配置的30天，你缩小一下天数重启节点就会清理了

residentevil · 2025 年5 月 19 日 06:44

我重新安装了一套Prometheus也不行，而且我发现Prometheus采集的数据是sum(pd_cluster_status{k8s_cluster=“$k8s_cluster”, tidb_cluster=“$tidb_cluster”, type=“store_tombstone_count”})，这个数据确实是在Prometheus数据库里保存么？

zhanggame1 · 2025 年5 月 19 日 08:20

历史数据没用把监控缩容掉重新部署了

residentevil · 2025 年5 月 19 日 11:52

重建了prometheus也没用，验证过了，所以这个监控数据不知道从哪里获取的

有猫万事足 · 2025 年5 月 19 日 13:06

https://github.com/tikv/pd/blob/0575ceddbbd2de58b9cf7ed732c71b6b86d1eab9/pkg/statistics/store_collection.go#L192

在这里。
@DBRE 他说的是对的，就是历史上变为tombstone的tikv数量。

https://github.com/tikv/pd/blob/0575ceddbbd2de58b9cf7ed732c71b6b86d1eab9/pkg/statistics/store_collection.go#L104

代码里只有++没有下降的时候。

DBRE · 2025 年5 月 19 日 14:23

数据来源于pd的metrics接口，重新部署Prometheus是没有用的，重新采集又会出现了

最好的方法就是不用管它，啥也不影响

小龙虾爱大龙虾 · 2025 年5 月 20 日 00:17

它只是没有显示，你试一下那个命令

Jellybean · 2025 年5 月 20 日 01:22

按照使用经验来说，这个Tombstone Stores是表示历史上变为tombstone的tikv节点数量。当年我们首次使用的时候也和原厂工程师做过沟通，这是个合理正常的数值，方便查看，用户可以不用关注这个点。

如果说有什么“不合理”的点，那就是不应该标注为“红色”，避免以为是有问题，其实当前集群是正常的，可能标记为灰色更符合大家的习惯。

residentevil · 2025 年5 月 20 日 01:27

这个检控的数据是从PD接口里拿到的么？掉pd/api/v1/store接口没看到有这个状态的tikv实例呢

residentevil · 2025 年5 月 20 日 01:29

原来pd组件也有metrics的接口，谢谢了

residentevil · 2025 年5 月 20 日 01:30

是否可以通过store remove-tombstone命令重新初始化这个值呢?