【 TiDB 使用环境】生产环境
【 TiDB 版本】5.1.1
【复现路径】扩容一台tikv节点
【遇到的问题:问题现象及影响】
扩容一台tikv节点后,原有的4个tikv节点上的region数量和磁盘占用不降反增,如下图,leader region是正常降的。副本数设置的是3,扩容前leader和region的比例是1:3,扩容后region数量明显大于3倍leader数量。
【资源配置】
【附件:截图/日志/监控】
【 TiDB 使用环境】生产环境
【 TiDB 版本】5.1.1
【复现路径】扩容一台tikv节点
【遇到的问题:问题现象及影响】
扩容一台tikv节点后,原有的4个tikv节点上的region数量和磁盘占用不降反增,如下图,leader region是正常降的。副本数设置的是3,扩容前leader和region的比例是1:3,扩容后region数量明显大于3倍leader数量。
【资源配置】
【附件:截图/日志/监控】
神奇的问题,用 pd-ctl + jq,分析下整个集群的 region 副本数量分布看看呢
之前是偶数位的节点数么?
如果是 3 tikv → 5 tikv 节点实例是奇数位的,可能更符合你的预期。
如果是 偶数位 4 tikv → 5 tikv 的扩容方式,region 的平衡调度会按照副本数持续性扩大… 跟你的预期会有差距的
持续扩大也不应该出现这种之前节点的region和磁盘占用不增反降的情况吧?
分布基本上是均衡的
请将region healthy面板截图,包括扩容前和扩容后的,怀疑可以从这里看到问题
扩容整个过程应该还没有完成 吧?新的创建旧的还没删除
会自动负载均衡吧
有可能会,建议看看 region score 和 分布 是否匹配
如果这个不太影响运行和稳定性,建议多观察
再观察几天
只看leader的话,新节点是分摊了。
看region的话,确实各个节点没什么变化,只是新增加的节点多存了一份region。
如果是三副本五节点,像下面这么分布,感觉不能保证挂掉2个节点不影响数据完整
A 主1 从2 从3
B 主2 从1 从4
C 主3 从4 从5
D 主4 从5 从2
E 主5 从3 从1
pd-ctl config show 看下配置的副本数,从监控数据算像是4副本
看下 region 副本的数量,别不是 3 副本是 4 或者 5 副本。
大家都怀疑你扩容前是缺副本,请发下你PD region healthy截图
你还是执行下SHOW config WHERE NAME LIKE ‘%replication.max-replicas%’;
让我们看下把,我想知道是不是真的这么神奇