Leader Balance Ratio 和 Region Balance Ratio一直是100%

  • 系统版本 & kernel 版本:centos 7.6
  • TiDB 版本:v3.0.3

Leader Balance Ratio 和 Region Balance Ratio一直是100%,但分别看都是正常的,是什么原因那? image

在集群新增/下线节点时值会比较大,进而导致这个值显示是100%。具体排查思路是: 1)先看下上报到 prometheus 上的值,确认下是不是有比较大的值存在。Metric 是pd_scheduler_store_status

min(pd_scheduler_store_status{instance="$instance", namespace=~"$namespace", type=“leader_score”}) 这个值一直是0

max(pd_scheduler_store_status{instance="$instance", namespace=~"$namespace", type=“leader_score”}) 这个正常

看一下是哪个 store 的值是0

是昨天delete掉的store,怎么清掉这个? delete掉了为什么还上报?

检查下节点的状态,确保被删除的节点处于Tombstone状态。节点不同状态的意义如下:

  • Up Stores:正常运行的 TiKV 节点数量
  • Disconnect Stores:短时间内通信异常的 TiKV 节点数量
  • LowSpace Stores:剩余可用空间小于 20% 的 TiKV 节点数量
  • Down Stores:停止工作的 TiKV 节点数量,如果大于 0,说明有节点不正常
  • Offline Stores:正在下线的 TiKV 节点数量(正在下线的 TiKV 节点还在提供服务)
  • Tombstone Stores:下线成功的 TiKV 节点数量

显示下线成功了

image

http://PDserver ip:2379/pd/api/v1/stores 通过这查询也已经没有删除掉的store了

下线成功后,还需要stop tikv ,并且 rolling_update_montior

这个都操作过了,整个集群都重启过了,依然是这样,比较奇怪。我是下掉store,同一台服务器换SSD盘后重新挂载tikv,新挂载的生产新的store,是正常的,就是之前下掉的为什么还在上报? 同样的,为什么下面的指标为什么没有那个下掉的? https://asktug.com/uploads/default/original/2X/4/4d2d8f5bb4734107ebf1ebc21191fa1a9a958d4e.png

这个应该是Tombstone Stores导致的吧。。。我们生产环境的监控也是这个值不为0 导致这2个百分比的指标一直为100%…

是tombstone导致的这个情况,我也遇到了。

pd-ctl 查看具体的store情况,已经没有了tombstone节点,但是grafana还是显示有tombstone状态节点数。

官方提供清除功能,但是不知道具体怎么操作:sweat_smile:

可以通过 pd-ctl 执行下述命令清理tombstone:

./pd-ctl stores remove-tombstone -u http://${pd_id}:${pd_port}

问题已经解决了:smile: 先进行remove-tombstone 然后stop tikv 最后 rolling_update_montior