tikv其中一个节点宕机之后状态为dwon,1小时之后恢复,状态恢复为up监控异常是否为正常现象

看图有两个服务没启动告警和1个节点掉线。
实际上集群所有节点cluseter都是up状态了

这2个是prometheus的监控客户端 在display cluster上是不显示的 去有问题的节点重启下blackbox_exporter node_exporter进程

1 个赞

可以忽律呢

1 个赞

我是想着可以忽略,反正tikv节点已经启动正常up了

检查拉一下。确实这两个进程没有启动。。。。没注意到。只想着tikv进程启动就行了。-_-||

tombsone stores 的这个看了一下有其他文章说官方有说当有tikv节点宕机又恢复的时候监控这个他没有反应,需要去对应的目录删除某个什么文件,但是可以忽略

pd-ctl -u http://pd_ip:2379 store remove-tombstone
或 curl -X DELETE pd-addr:port/pd/api/v1/stores/remove-tombstone
处理下

1 个赞

谢谢,看到有这么处理的,但是没测试环境,不敢直接搞。就留着吧

看看两个节点的日志当时有什么记录

两个对应的监控服务重启没有自动启动。手动启动了

1 个赞

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。