K8s集群多集群运行互相干扰,性能下降

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【概述】:一个K8s上运行多个TiDB集群,在宿主机内存、CPU、网络、磁盘没有到瓶颈的情况下,压测过程中发现集群之间有一定干扰,出现性能下降

【背景】:sysbench压测

【现象】:2个TiDB集群在进行压测的时候,CPU、内存、磁盘、网络均未到瓶颈,TPS比单个集群压测时有较为明显的下降,且延时也增加

【问题】:k8s部署多个TiDB集群,在压测时发现会互相干扰

【业务影响】:

【TiDB 版本】:v4.0.12

【TiDB Operator 版本】:v1.1.12

【K8s 版本】:v1.14.0

【附件】:


(在300s左右的时候跑上的第二个sysbench)

1 个赞
  1. 压测的拓扑是怎么样的?
  2. 麻烦检查下整条压测链路,如果 tidb 集群没有到达瓶颈,看下压测的服务器,或者是否使用了公用的elb 压力过大。

1、集群拓扑架构:PD、TiDB、TIKV各一个实例,压测机是集群外的另一台服务器
2、压测的服务器没有使用公用的ELB

  1. 两个集群的来源是同一个发压机器对吧。那看下发压机器的资源使用情况
  2. 看下发压机器到两个tidb 的网络带宽是否满了。

1、发压机器的资源使用情况均未达到饱和状态,CPU、磁盘,内存使用均良好。
2、压测机到2个tidb的网络带宽未打满

麻烦先收集下两个集群,这段时间的 over-view,tidb ,detail-tikv 监控,多谢。

tidb-cluster是第一个集群,tidb-cluster2是第二个集群,15:20分左右开始测试的。
两个集群规模:TiDB/TiKV 8C/32G,PD 2C/16G
tidb-cluster2-Overview_2021-06-30T09_47_15.911Z.json (570.3 KB) tidb-cluster2-TiDB_2021-06-30T09_48_08.930Z.json (1.2 MB)

tidb-cluster-Overview_2021-06-30T08_41_21.736Z.json (577.4 KB) tidb-cluster-TiDB_2021-06-30T08_49_36.831Z.json (1.3 MB)

tidb-cluster2-TiKV-Details_2021-06-30T09_56_59.311Z.json (5.5 MB)
tidb-cluster-TiKV-Details_2021-06-30T09_10_40.528Z.json (5.5 MB)
补充TiKV-Details的监控

  1. 能否反馈再反馈下单独执行的监控。 方便对比 qps 下降了多少。
  2. 描述下每个集群的拓扑,pod 在哪个node , 有没有 node 的监控信息
  3. 目前看 tidb 的 cpu 快要到临界值。

1、第一个集群压测的时候,TPS在1500~1700左右,第二个集群压测打开后,集群1的TPS下降了400~500
2、node 的哪些监控信息

  1. tidb-test1 和 tidb-test2 所有的 pod 都在 k8s-tidb1 ,k8s-tidb2, k8s-tidb3 上,所以可以查看 k8s-tidb1 ,2,3 的节点资源监控信息,比如整体内存和 cpu 使用情况。
  2. pod 挂载的 pv 不知道是否也会使用的相同的磁盘,比如一块盘挂载了多个 pv。可以排查下 IO 整体使用。