tikv节点如何快速彻底踢出集群？新加的节点怎么快速平衡leader-region？

Ann_ann · 2024 年9 月 19 日 01:48

【 TiDB 使用环境】生产环境
【 TiDB 版本】“version”: “3.0.16”,
【 TiDB 环境】虚机自建tidb，tikv配置：32G16C1000GSSD盘
【遇到的问题：问题现象及影响】集群中有两个tikv节点宕机，于是delete了对应的store，但region迁移的很慢，又新加进来一个store，leader-region平衡的也很慢很慢。新加进来的store是会等删除store节点下线了才会快速迁移leader-region么？或者有什么办法可以将已经下线的两个tikv节点快速彻底踢出去么？求教大神们！
【附件：截图/日志/监控】
这是已经delete状态的两个store

这是新加进来的store

已经修改了两个参数之前是4修改成了8 但速度没有提升

leader-schedule-limit 调度是用来均衡不同 TiKV 的 leader 数，影响处理查询的负载。
region-schedule-limit 调度是均衡不同 TiKV 的副本数，影响不同节点的数据量。

caiyfc · 2024 年9 月 19 日 01:57

还是要先加速region的迁移，把store limit调大一些，测试集群可以调到百万级别，生产集群就调整小一点，万级就行了。删除的store，看看region count是不是在减少，如果是的话就不用管，等待region count变成0就行。如果没有减少，可能需要手动去删除对应的region

TiDBer_jYQINSnf · 2024 年9 月 19 日 01:57

store limit 调大就会加快速度。
至于老的下线和新的没关系，俩不掺和

h5n1 · 2024 年9 月 19 日 02:07

除了调整几个Limit参数，增加处理阈值外，加快下线迁移速度最快的方式是手工添加调度，循环多次执行。参考手动调度那节的脚本

Ann_ann · 2024 年9 月 19 日 02:34

已经offline的节点也会影响查询吧

Ann_ann · 2024 年9 月 19 日 02:36

V3.0.16版本不好不能设置storelimit 看不到默认的设置了也不生效

caiyfc · 2024 年9 月 19 日 02:39

如果leader region在offline的节点上，应该是会影响查询的

Kongdom · 2024 年9 月 19 日 02:59

offline的节点上应该还是有region的。

h5n1 · 2024 年9 月 19 日 03:23

没有就不用管这个了好像是从4.几才有的

residentevil · 2024 年9 月 19 日 06:58

还需要用pd-ctl 修改store limit all xx, 记得最大限制就是200

cchouqiang · 2024 年9 月 19 日 08:32

v6以后的版本有200的限制，v5版本是没有200限制的

residentevil · 2024 年9 月 22 日 01:56

哦哦，感觉设置到200后，恢复的速度每秒能到300mb+，这个速度其实很快了