Leader Balance Ratio 和 Region Balance Ratio一直是100%

无须务虚 · 2019 年9 月 17 日 04:05

系统版本 & kernel 版本：centos 7.6
TiDB 版本：v3.0.3

Leader Balance Ratio 和 Region Balance Ratio一直是100%，但分别看都是正常的，是什么原因那？

龙雪刚-PingCAP · 2019 年9 月 17 日 10:38

在集群新增/下线节点时值会比较大，进而导致这个值显示是100%。具体排查思路是： 1）先看下上报到 prometheus 上的值，确认下是不是有比较大的值存在。Metric 是pd_scheduler_store_status

无须务虚 · 2019 年9 月 17 日 10:43

min(pd_scheduler_store_status{instance="$instance", namespace=~"$namespace", type=“leader_score”}) 这个值一直是0

max(pd_scheduler_store_status{instance="$instance", namespace=~"$namespace", type=“leader_score”}) 这个正常

龙雪刚-PingCAP · 2019 年9 月 17 日 10:44

看一下是哪个 store 的值是0

无须务虚 · 2019 年9 月 17 日 10:56

是昨天delete掉的store，怎么清掉这个？ delete掉了为什么还上报？

龙雪刚-PingCAP · 2019 年9 月 17 日 11:01

检查下节点的状态，确保被删除的节点处于Tombstone状态。节点不同状态的意义如下：

Up Stores：正常运行的 TiKV 节点数量
Disconnect Stores：短时间内通信异常的 TiKV 节点数量
LowSpace Stores：剩余可用空间小于 20% 的 TiKV 节点数量
Down Stores：停止工作的 TiKV 节点数量，如果大于 0，说明有节点不正常
Offline Stores：正在下线的 TiKV 节点数量（正在下线的 TiKV 节点还在提供服务）
Tombstone Stores：下线成功的 TiKV 节点数量

无须务虚 · 2019 年9 月 17 日 11:02

显示下线成功了

http://PDserver ip:2379/pd/api/v1/stores 通过这查询也已经没有删除掉的store了

龙雪刚-PingCAP · 2019 年9 月 17 日 11:45

下线成功后，还需要stop tikv ，并且 rolling_update_montior

无须务虚 · 2019 年9 月 17 日 12:54

这个都操作过了，整个集群都重启过了，依然是这样，比较奇怪。我是下掉store，同一台服务器换SSD盘后重新挂载tikv，新挂载的生产新的store，是正常的，就是之前下掉的为什么还在上报？
同样的，为什么下面的指标为什么没有那个下掉的？
https://asktug.com/uploads/default/original/2X/4/4d2d8f5bb4734107ebf1ebc21191fa1a9a958d4e.png

lemontree8801 · 2019 年9 月 18 日 03:06

这个应该是Tombstone Stores导致的吧。。。我们生产环境的监控也是这个值不为0 导致这2个百分比的指标一直为100%…

wl21787 · 2019 年9 月 18 日 03:45

是tombstone导致的这个情况，我也遇到了。

pd-ctl 查看具体的store情况，已经没有了tombstone节点，但是grafana还是显示有tombstone状态节点数。

官方提供清除功能，但是不知道具体怎么操作:sweat_smile:

无须务虚 · 2019 年9 月 18 日 03:50

zhenjiaogao · 2019 年9 月 18 日 05:09

可以通过 pd-ctl 执行下述命令清理tombstone：

./pd-ctl stores remove-tombstone -u http://${pd_id}:${pd_port}

无须务虚 · 2019 年9 月 18 日 07:23

问题已经解决了
先进行remove-tombstone 然后stop tikv 最后 rolling_update_montior

zuqiang · 2019 年11 月 20 日 03:38

你好，我这里是缩容扩容之后，删除tombstone 状态的store，失败。

GangShen · 2019 年11 月 20 日 03:45

请问集群版本是多少？

zuqiang · 2019 年11 月 20 日 05:59

“version”: “3.0.1”

zzzzzz · 2019 年11 月 20 日 07:43

进入可交互界面执行该命令看下

zuqiang · 2019 年11 月 20 日 07:59

交互界面也是一样的结果。

zzzzzz · 2019 年11 月 20 日 08:23

https://github.com/pingcap/pd/pull/1651

已知bug，3.0.2 修复了。

如果不想升级的话，可以使用 3.0.2 的 pd-ctl 来操作。