扩容高配服务器，集群整体性能反而降低了

magongyong · 2023 年9 月 14 日 07:18

magongyong · 2023 年9 月 14 日 07:19

20T的集群现在停了，leader基本是均衡的，weight值没改

Kongdom · 2023 年9 月 14 日 07:22

扩容之后是哪一段？

magongyong · 2023 年9 月 14 日 07:23

差不多平均0.08ms，网络应该不是问题，新tikv和原有的pd部署一套集群测试，100并发，tps能到5200

magongyong · 2023 年9 月 14 日 07:24

我发的两个图都是扩容后的

zhanggame1 · 2023 年9 月 14 日 07:24

数据量太小，这个级别适合单机数据库，规模越大效果越差

昵称想不起来了 · 2023 年9 月 14 日 07:48

同感是单表数据量小，服务器数量太多反而因为通信拉低性能了

Fly-bird · 2023 年9 月 14 日 11:14

楼主，问题解决了吗啊

magongyong · 2023 年9 月 14 日 13:10

差不多算是解决了吧，就是将旧机器每个服务器缩容为1个实例，新机器每个服务器部署2个实例，先达到每个实例资源基本均衡，后来测试过程中又发现了两个问题：

集群有20T数据和空集群压测tps相差较大，有20T数据的tps低，空集群tps高，相差30%
就像楼上说的，数据太少也不行，8个100万的表，100并发，tps是4800，但是8个1000万的表，tps到5800了，这种场景是新旧服务器共12台tikv部署一个大集群，空集群，只有压测数据

magongyong · 2023 年9 月 14 日 13:15

整体来说还是集群服务器数量少，反而性能高，服务器多，性能并不是同等增长的，也考虑了拆分为两个集群，那样两个集群的加起来的性能远大于一个大集群的性能，但是线上等着使用，来不及了

托马斯滑板鞋 · 2023 年9 月 15 日 01:09

sysbench测的哪个模块方便说下吗？

magongyong · 2023 年9 月 15 日 01:32

oltp.lua

托马斯滑板鞋 · 2023 年9 月 15 日 01:33

是OLTP整个模块吗？还是其中某一个？比如oltp_select_point、oltp_read_write

magongyong · 2023 年9 月 15 日 01:35

/usr/share/sysbench/tests/include/oltp_legacy/oltp.lua

Kongdom · 2023 年9 月 15 日 03:09

这不合理啊，不应该集群规模越大，性能越高么

magongyong · 2023 年9 月 15 日 08:58

根据测试情况，我的理解是这样的：

集群越大，性能越高，是建立在具有一定数据量，并且是高并发的基础上的
对于低并发的情况，比如10个并发，在一个大集群里跑，反而性能会降低，因为分布式增加了通信成本
比如有两个集群，一个是3台服务器的小集群，一个是30台服务器的大集群，跑10个并发压测，小集群反而会发挥出优势，因为通信成本低，所以tps会比大集群高；但是如果跑1000个并发，大集群就发挥出优势了，因为处理能力强，而小集群的资源就成了瓶颈

总之，在能够承受业务数据量和并发量的情况下，tikv服务器越少，性能越好，而不是集群越大越好。

不知道这样理解是否正确，还请指正

Kongdom · 2023 年9 月 16 日 05:20

仔细一想，还真有可能是这种情况。

system · 2023 年11 月 17 日 00:54

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。