机器替换后store leader/region分布不均

如果删除失败的话,那只能通过 恢复的手段去处理了

参考SOP操作

以及 Region 恢复
https://docs.pingcap.com/zh/tidb/stable/tikv-control#强制-region-从多副本失败状态恢复服务慎用

这个操作有风险,不建议在生产上直接操作

最稳妥的方式,在建一套集群,通过ticdc 的方式,把数据同步过去
然后同步完成以后,找个时间点做切换即可

嗯嗯,如果实在均衡不了,就会考虑再建一个集群同步数据了。

通过scatter 去均衡下呢

测试无效,随便找了个region操作前后状态都是:
» region 1494158
{
“id”: 1494158,
“start_key”: “7480000000000000FF5F5F7280000000E6FFAEA5E00000000000FA”,
“end_key”: “7480000000000000FF5F5F7280000000E6FFBBD0ED0000000000FA”,
“epoch”: {
“conf_ver”: 545,
“version”: 4788
},
“peers”: [
{
“id”: 1494160,
“store_id”: 1015859
},
{
“id”: 2811454,
“store_id”: 2740575
},
{
“id”: 2812091,
“store_id”: 4
}
],
“leader”: {
“id”: 2812091,
“store_id”: 4
},
“down_peers”: [
{
“peer”: {
“id”: 1494160,
“store_id”: 1015859
},
“down_seconds”: 72638
}
],
“pending_peers”: [
{
“id”: 1494160,
“store_id”: 1015859
}
],
“written_bytes”: 0,
“read_bytes”: 0,
“written_keys”: 0,
“read_keys”: 0,
“approximate_size”: 95,
“approximate_keys”: 850656
}

最近写了一个脚本处理掉了一个down store上的region peers,目前看了下所有Up节点的leader已经均衡,region个数也已经开始均衡。
预计清理完所有故障store上的节点后就正常了。
相关脚本我在github建了一个repo记录日常操作tidb会用到的工具。 realcp1018/tidb-toolkit (github.com)
本次使用的命令是:
python tidb_store_region.py -u 10.69.184.69:2379 -o showStores
python tidb_store_region.py -u 10.69.184.68:2379 -o removeStorePeers -s 1015857
python tidb_store_region.py -u 10.69.184.68:2379 -o removeStorePeers -s 1015858
python tidb_store_region.py -u 10.69.184.68:2379 -o removeStorePeers -s 1015859

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。