tikv下线无法缩容掉

【 TiDB 使用环境】生产环境
【 TiDB 版本】v3.0.3
【遇到的问题】下线两个tikv下线了2天,现在两个tikv分别卡到40、51个store无法下线
【资源配置】
2个tidb-server、3个pd-server、8个tikv-server


无法下线的两个tikv节点(170150、170152)

图片
图片
我将region-schedule-limit、max-pending-peer-count 调大后等待仍是无法下线,我计划将下线的tikv(170150 170152)中的region转移出去促使他们下线,找了一个下线tikv中的region做了如下操作:
operator remove 61557
operator add transfer-region 61557 170151 141001 141002
提示sucess,查看了下region没有被转移,筛选了下,发现operator操作在队列中很长时间;

再等待一段时间,这个operator操作在队列中消失,region 61557也没有被转移出去
图片

两个store都是offline状态

集群现在能用了没有啊?

1 个赞

集群还是用不了,还是[Err] 9005 - Region is unavailable,前两天社区建议将tikv下线尝试下,下线就卡住了

可以看下这个行不行

1 个赞

3版本的,给的啥配置呢

1 个赞

这个不行 操作了之后还是没有下线完成

三板斧之前试过了 unsafe执行了很多遍 ,region数也不降下去了,这是下线tikv170150 170152的region。
170150.log (14.7 KB)
170152.log (15.6 KB)
手动operator 也不行,
查看了下未迁移的region


一直在驱逐leader 执行一直在timeout ,

还有增加peer 都一直不成功

混合部署的

楼主解决了嘛

解决了

清除pd缓存 让region重新生成副本 修复索引

1 个赞

那个记录unsafe storeid的region呢

清除缓存后自动生成了 部分没有生成的就在所在store节点recreate 修复索引 删除重建索引

加第3台机器吧

不过是客户的机器 只能给他们提 看他们采纳不

清PD 缓存 是把所有region的都处理了,还是只是剩的那几个

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。