扩容高配服务器，集群整体性能反而降低了

magongyong · 2023 年9 月 13 日 12:29

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.5.3
【复现路径】tidb集群扩容
集群原有6台tikv服务器，每台48c ，256g内存，2块nvme盘，sysbench压测，100并发，tps能到4500
集群扩容了6个高配服务器（64c 256g 2块nvme）后，都是tikv，sysbench压测，100并发，tps反而降低到了3500
单独使用新增的6台高配服务器作为tikv，部署一个新集群，sysbench压测，100并发，tps能达到5200
请问这是什么原因呢，这三个测试结果都是测试多遍得出的结论

【遇到的问题：问题现象及影响】
【资源配置】
【附件：截图/日志/监控】

zhanggame1 · 2023 年9 月 13 日 12:36

观察下资源，如果tikv不是瓶颈，增加tikv没效果的，可以考虑集群原有6台tikv服务器直接加tidb数量

magongyong · 2023 年9 月 13 日 12:58

现在这个问题可以解决，主要是需要确定原因，为何扩容高配服务器，反而性能降低了

昵称想不起来了 · 2023 年9 月 13 日 15:32

机器多了，感觉网络通信成本也高了？
另外就是会不会调节参数好点？减少低配机器负载

负载均衡

此外，为了应对不同节点可能在性能等方面存在差异的问题，还可为 Store 设置负载均衡的权重。leader-weight 和 region-weight 分别用于控制 Leader 权重以及 Region 权重（默认值都为 “1”）。假如把某个 Store 的 leader-weight 设为 “2”，调度稳定后，则该节点的 Leader 数量约为普通节点的 2 倍；假如把某个 Store 的 region-weight 设为 “0.5”，那么调度稳定后该节点的 Region 数量约为其他节点的一半。

h5n1 · 2023 年9 月 14 日 00:44

先看下拓扑和overview 监控

tidb菜鸟一只 · 2023 年9 月 14 日 00:46

我觉得最应该排查的是新机器和老机器之间的网络

Kongdom · 2023 年9 月 14 日 01:45

扩容之后，有没有等数据均衡了再测试？数据均衡也要消耗性能的。

普罗米修斯 · 2023 年9 月 14 日 02:09

观察下grafana-overview其他分布式节点（tidb、pd）的负载情况

随缘天空 · 2023 年9 月 14 日 03:02

首先服务器的配置不一致也有可能会影响性能，扩容时建议同一个组件的配置尽量保持一致进行测试看下效果。另外，压测时，压测时间要保持一致，否则也会影响指标数据。同时，观察下dashboard或者grafana中的tikv监控信息，看下新增加的节点是否真正发挥作用

magongyong · 2023 年9 月 14 日 06:36

修改weight试了，基本没有效果，应该是和通信成本高有关

magongyong · 2023 年9 月 14 日 06:39

一开始也是怀疑是网络问题，后来排查，基本排除网络问题了，都是光口交换机，其他集群测试没问题的

magongyong · 2023 年9 月 14 日 06:39

嗯，都是现预热，测试2遍，再开始正式测试

Kongdom · 2023 年9 月 14 日 06:41

这和预热没关系吧，扩容之后要等数据均衡的。

magongyong · 2023 年9 月 14 日 06:41

cpu负载不是很均衡，旧服务器负载高一点，新服务器负载低一点，但是整体负载不是很高，最高的不超过60%

magongyong · 2023 年9 月 14 日 06:42

我们的测试数据不是很多，8个100万条的表，几十个region，sysbench跑1次后基本上就均衡了

有猫万事足 · 2023 年9 月 14 日 07:03

新tikv到 pd leader 的ping值是多少？

magongyong · 2023 年9 月 14 日 07:03

经过今天测试，发现集群有20T的数据和空集群测试qps相差挺多，空集群tps能到4800，有20T数据tps才3500，除了数据不一致，其他都一样

Kongdom · 2023 年9 月 14 日 07:07

数据分布均衡么？贴图看一下

magongyong · 2023 年9 月 14 日 07:14

magongyong · 2023 年9 月 14 日 07:15

不压测，线是平的，压测开始，线开始变乱