- 系统版本 & kernel 版本:centos 7.6
- TiDB 版本:v3.0.3
Leader Balance Ratio 和 Region Balance Ratio一直是100%,但分别看都是正常的,是什么原因那?
Leader Balance Ratio 和 Region Balance Ratio一直是100%,但分别看都是正常的,是什么原因那?
在集群新增/下线节点时值会比较大,进而导致这个值显示是100%。具体排查思路是: 1)先看下上报到 prometheus 上的值,确认下是不是有比较大的值存在。Metric 是pd_scheduler_store_status
min(pd_scheduler_store_status{instance="$instance", namespace=~"$namespace", type=“leader_score”}) 这个值一直是0
max(pd_scheduler_store_status{instance="$instance", namespace=~"$namespace", type=“leader_score”}) 这个正常
看一下是哪个 store 的值是0
是昨天delete掉的store,怎么清掉这个? delete掉了为什么还上报?
检查下节点的状态,确保被删除的节点处于Tombstone状态。节点不同状态的意义如下:
下线成功后,还需要stop tikv ,并且 rolling_update_montior
这个都操作过了,整个集群都重启过了,依然是这样,比较奇怪。我是下掉store,同一台服务器换SSD盘后重新挂载tikv,新挂载的生产新的store,是正常的,就是之前下掉的为什么还在上报?
同样的,为什么下面的指标为什么没有那个下掉的?
https://asktug.com/uploads/default/original/2X/4/4d2d8f5bb4734107ebf1ebc21191fa1a9a958d4e.png
这个应该是Tombstone Stores导致的吧。。。我们生产环境的监控也是这个值不为0 导致这2个百分比的指标一直为100%…
是tombstone导致的这个情况,我也遇到了。
pd-ctl 查看具体的store情况,已经没有了tombstone节点,但是grafana还是显示有tombstone状态节点数。
官方提供清除功能,但是不知道具体怎么操作:sweat_smile:
问题已经解决了
先进行remove-tombstone 然后stop tikv 最后 rolling_update_montior
请问集群版本是多少?
“version”: “3.0.1”
进入可交互界面执行该命令看下