tikv下线节点超级慢

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.1.0
【遇到的问题:问题现象及影响】
tikv集群磁盘快满了,新扩容了5个节点,然后准备把磁盘空间不足的节点下线清理后再扩容上去,现在发现下线2个tikv节点,耗时接近2个星期了,于是调整了replica-schedule-limit,max-pending-peer-count,set max-snapshot-count参数,但是region下线数据还是没提升,每个节点才减少100多个region,按这个进度感觉要等到下届世界杯了。
【资源配置】
cpu,内存配置:


磁盘情况:
![image|690x491](upload://y80ExaafC4yR1pXEdA99ZRy8sdf.png
【附件:截图/日志/监控】
pd超时日志:

pd配置:

其中下线节点的store信息

pd监控信息

operator信息

几份文档你可以看一下:

https://docs.pingcap.com/zh/tidb/stable/tiup-component-cluster-scale-in#下线特殊处理

专栏 - TiKV缩容不掉如何解决? | TiDB 社区.

这里有很多相关的问题,你可以看看里面有没有适合你的解决方案~

其他节点的磁盘空间剩余多少。

pd-ctl store limit 调大些看看

PD 超时是一直都有,还是最近出现的?

PD 的 leader 节点,混布 tidb 节点之后,资源上是否能撑得住?

建议手动驱逐你想下线的 tikv 节点,先将 region leader 进行转移…
转移完成之后,下线会简单很多…

PD超时一直都有。
下线前已经把待下线节点的leader驱逐了的。


2个下线store上的remove-peer我看已经很高了。


新扩容上去的节点磁盘使用率还挺低的。

建议先把 PD 的节点独立出来…

把那两个tikv上的region手动移除一下

high-space-ratio 调高到0.8 之后观察均衡之后在调整回原来的值

如何手动移除呢?

已经调到0.9了的

ok 再看下schedule的监控

operater的监控

https://docs.pingcap.com/zh/tidb/dev/pd-control#operator-check--show--add--remove

operator add remove-peer 1 2                         // 移除 store 2 上的 Region 1 的一个副本