扩容高配服务器,集群整体性能反而降低了

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.3
【复现路径】tidb集群扩容
集群原有6台tikv服务器,每台48c ,256g内存 ,2块nvme盘,sysbench压测,100并发,tps能到4500
集群扩容了6个高配服务器(64c 256g 2块nvme)后,都是tikv,sysbench压测,100并发,tps反而降低到了3500
单独使用新增的6台高配服务器作为tikv,部署一个新集群,sysbench压测,100并发,tps能达到5200
请问这是什么原因呢,这三个测试结果都是测试多遍得出的结论

【遇到的问题:问题现象及影响】
【资源配置】
【附件:截图/日志/监控】

观察下资源,如果tikv不是瓶颈,增加tikv没效果的,可以考虑集群原有6台tikv服务器直接加tidb数量

1 个赞

现在这个问题可以解决,主要是需要确定原因,为何扩容高配服务器,反而性能降低了

机器多了,感觉网络通信成本也高了?
另外就是会不会调节参数好点?减少低配机器负载

负载均衡

此外,为了应对不同节点可能在性能等方面存在差异的问题,还可为 Store 设置负载均衡的权重。leader-weightregion-weight 分别用于控制 Leader 权重以及 Region 权重(默认值都为 “1”)。假如把某个 Store 的 leader-weight 设为 “2”,调度稳定后,则该节点的 Leader 数量约为普通节点的 2 倍;假如把某个 Store 的 region-weight 设为 “0.5”,那么调度稳定后该节点的 Region 数量约为其他节点的一半。

2 个赞

先看下拓扑和overview 监控

1 个赞

我觉得最应该排查的是新机器和老机器之间的网络

扩容之后,有没有等数据均衡了再测试?数据均衡也要消耗性能的。

2 个赞

观察下grafana-overview其他分布式节点(tidb、pd)的负载情况

1 个赞

首先服务器的配置不一致也有可能会影响性能,扩容时建议同一个组件的配置尽量保持一致进行测试看下效果。另外,压测时,压测时间要保持一致,否则也会影响指标数据。同时,观察下dashboard或者grafana中的tikv监控信息,看下新增加的节点是否真正发挥作用

1 个赞

修改weight试了,基本没有效果,应该是和通信成本高有关

一开始也是怀疑是网络问题,后来排查,基本排除网络问题了,都是光口交换机,其他集群测试没问题的

嗯,都是现预热,测试2遍,再开始正式测试

这和预热没关系吧,扩容之后要等数据均衡的。

2 个赞

cpu负载不是很均衡,旧服务器负载高一点,新服务器负载低一点,但是整体负载不是很高,最高的不超过60%

我们的测试数据不是很多,8个100万条的表,几十个region,sysbench跑1次后基本上就均衡了

新tikv到 pd leader 的ping值是多少?

经过今天测试,发现集群有20T的数据和空集群测试qps相差挺多,空集群tps能到4800,有20T数据tps才3500,除了数据不一致,其他都一样

数据分布均衡么?贴图看一下

1 个赞

不压测,线是平的,压测开始,线开始变乱