TIDB grafana监控问题

【TiDB 使用环境】生产环境
【TiDB 版本】v7.5.5
【操作系统】centos7.5
【部署方式】物理服务器
【问题复现路径】 grafana监控->PD页面中,出现2个Tombstone Stores状态的信息,从PD接口获取所有store信息都是Up状态,无异常,这块的监控采集是不是有异常,或者怎么可以清理下&重新刷新下

缩容过么?
https://docs.pingcap.com/zh/tidb/stable/tiup-component-cluster-scale-in/#下线特殊处理

prune做过了,没用

下线后的store会变成tombstone, 可以理解为历史上变为tombstone的tikv数量,不用管

或者试试这个方案 pd-ctl store remove-tombstone
https://docs.pingcap.com/zh/tidb/stable/pd-control/#下线-store

主要是PD里面没有tombstone状态的store哦

它读取的是Prometheus的数据,不行重启一下Prometheus的节点或者把Prometheus的数据库清理一下

prometheus数据库怎么清理呢?

:flushed:那就直接重启grafana节点吧,重新应该能解决

Prometheus安装目录的启动脚本有个默认保留天数,tidb配置的30天,你缩小一下天数 重启节点就会清理了

我重新安装了一套Prometheus也不行,而且我发现Prometheus采集的数据是sum(pd_cluster_status{k8s_cluster=“$k8s_cluster”, tidb_cluster=“$tidb_cluster”, type=“store_tombstone_count”}), 这个数据确实是在Prometheus数据库里保存么?

历史数据没用把监控缩容掉重新部署了

重建了prometheus也没用,验证过了,所以这个监控数据不知道从哪里获取的

https://github.com/tikv/pd/blob/0575ceddbbd2de58b9cf7ed732c71b6b86d1eab9/pkg/statistics/store_collection.go#L192

在这里。
@DBRE 他说的是对的,就是历史上变为tombstone的tikv数量。

https://github.com/tikv/pd/blob/0575ceddbbd2de58b9cf7ed732c71b6b86d1eab9/pkg/statistics/store_collection.go#L104

代码里只有++没有下降的时候。

2 个赞

数据来源于pd的metrics接口,重新部署Prometheus是没有用的,重新采集又会出现了

最好的方法就是不用管它,啥也不影响

2 个赞

它只是没有显示,你试一下那个命令

按照使用经验来说,这个Tombstone Stores是表示历史上 变为tombstone的tikv节点数量。当年我们首次使用的时候也和原厂工程师做过沟通,这是个合理正常的数值,方便查看,用户可以不用关注这个点。

如果说有什么“不合理”的点,那就是不应该标注为“红色”,避免以为是有问题,其实当前集群是正常的,可能标记为灰色更符合大家的习惯。

1 个赞

这个检控的数据是从PD接口里拿到的么? 掉pd/api/v1/store接口没看到有这个状态的tikv实例呢

原来pd组件也有metrics的接口,谢谢了

是否可以通过store remove-tombstone命令重新初始化这个值呢?