集群去掉tikv节点过程中掉线

GangShen · 2021 年3 月 25 日 06:06

从 region 的数量监控看，扩容之后在迁移 region ，迁移 region 的过程中设计到在新节点上补数据，旧节点需要 Compaction 清理数据，扩容迁移过程中是对 IO 有影响的。
可以考虑调整一下 PD 的 region-schedule-limit 和 leader-schedule-limit ，调小一点，减慢调度速度，看 IO 的影响是否可以小一些。
https://docs.pingcap.com/zh/tidb/stable/pd-scheduling-best-practices#pd-调度策略最佳实践

官方是建议每个 TiKV 节点上 3-5W region 数量。