tikv下线节点超级慢

TiDBer_pkQ5q1l0 · 2022 年12 月 26 日 01:10

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.1.0
【遇到的问题：问题现象及影响】
tikv集群磁盘快满了，新扩容了5个节点，然后准备把磁盘空间不足的节点下线清理后再扩容上去，现在发现下线2个tikv节点，耗时接近2个星期了，于是调整了replica-schedule-limit，max-pending-peer-count，set max-snapshot-count参数，但是region下线数据还是没提升，每个节点才减少100多个region，按这个进度感觉要等到下届世界杯了。
【资源配置】
cpu,内存配置：

磁盘情况：
![image|690x491](upload://y80ExaafC4yR1pXEdA99ZRy8sdf.png
【附件：截图/日志/监控】
pd超时日志：

pd配置：

其中下线节点的store信息

pd监控信息

operator信息

Billmay表妹 · 2022 年12 月 26 日 02:24

几份文档你可以看一下：

https://docs.pingcap.com/zh/tidb/stable/tiup-component-cluster-scale-in#下线特殊处理

专栏 - TiKV缩容不掉如何解决？ | TiDB 社区.

这里有很多相关的问题，你可以看看里面有没有适合你的解决方案~

songxuecheng · 2022 年12 月 26 日 02:25

其他节点的磁盘空间剩余多少。

h5n1 · 2022 年12 月 26 日 02:28

pd-ctl store limit 调大些看看

xfworld · 2022 年12 月 26 日 03:06

PD 超时是一直都有，还是最近出现的？

PD 的 leader 节点，混布 tidb 节点之后，资源上是否能撑得住？

建议手动驱逐你想下线的 tikv 节点，先将 region leader 进行转移…
转移完成之后，下线会简单很多…

TiDBer_pkQ5q1l0 · 2022 年12 月 26 日 03:19

PD超时一直都有。
下线前已经把待下线节点的leader驱逐了的。

TiDBer_pkQ5q1l0 · 2022 年12 月 26 日 03:23

2个下线store上的remove-peer我看已经很高了。

TiDBer_pkQ5q1l0 · 2022 年12 月 26 日 03:24

新扩容上去的节点磁盘使用率还挺低的。

xfworld · 2022 年12 月 26 日 03:26

建议先把 PD 的节点独立出来…

hey-hoho · 2022 年12 月 26 日 04:04

把那两个tikv上的region手动移除一下

songxuecheng · 2022 年12 月 26 日 04:58

`high-space-ratio` 调高到0.8 之后观察均衡之后在调整回原来的值

TiDBer_pkQ5q1l0 · 2022 年12 月 26 日 05:46

如何手动移除呢？

TiDBer_pkQ5q1l0 · 2022 年12 月 26 日 05:46

已经调到0.9了的

songxuecheng · 2022 年12 月 26 日 06:09

ok 再看下schedule的监控

TiDBer_pkQ5q1l0 · 2022 年12 月 26 日 06:19

songxuecheng · 2022 年12 月 26 日 07:30

operater的监控

hey-hoho · 2022 年12 月 27 日 02:24

https://docs.pingcap.com/zh/tidb/dev/pd-control#operator-check--show--add--remove

operator add remove-peer 1 2                         // 移除 store 2 上的 Region 1 的一个副本

system · 2023 年2 月 25 日 02:24

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。

tikv下线节点超级慢

high-space-ratio 调高到0.8 之后观察均衡之后在调整回原来的值

`high-space-ratio` 调高到0.8 之后观察均衡之后在调整回原来的值