K8s集群多集群运行互相干扰，性能下降

萍萍723 · 2021 年6 月 26 日 10:44

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

【概述】：一个K8s上运行多个TiDB集群，在宿主机内存、CPU、网络、磁盘没有到瓶颈的情况下，压测过程中发现集群之间有一定干扰，出现性能下降

【背景】：sysbench压测

【现象】：2个TiDB集群在进行压测的时候，CPU、内存、磁盘、网络均未到瓶颈，TPS比单个集群压测时有较为明显的下降，且延时也增加

【问题】：k8s部署多个TiDB集群，在压测时发现会互相干扰

【业务影响】：

【TiDB 版本】：v4.0.12

【TiDB Operator 版本】：v1.1.12

【K8s 版本】：v1.14.0

【附件】：

（在300s左右的时候跑上的第二个sysbench）

yilong · 2021 年6 月 28 日 02:20

萍萍723 · 2021 年6 月 28 日 08:50

1、集群拓扑架构：PD、TiDB、TIKV各一个实例，压测机是集群外的另一台服务器
2、压测的服务器没有使用公用的ELB

yilong · 2021 年6 月 28 日 12:07

萍萍723 · 2021 年6 月 29 日 03:01

1、发压机器的资源使用情况均未达到饱和状态，CPU、磁盘，内存使用均良好。
2、压测机到2个tidb的网络带宽未打满

yilong · 2021 年6 月 29 日 11:36

麻烦先收集下两个集群，这段时间的 over-view，tidb ，detail-tikv 监控，多谢。

萍萍723 · 2021 年6 月 30 日 10:19

tidb-cluster是第一个集群，tidb-cluster2是第二个集群，15：20分左右开始测试的。
两个集群规模：TiDB/TiKV 8C/32G,PD 2C/16G
tidb-cluster2-Overview_2021-06-30T09_47_15.911Z.json (570.3 KB) tidb-cluster2-TiDB_2021-06-30T09_48_08.930Z.json (1.2 MB)

萍萍723 · 2021 年6 月 30 日 10:47

yilong · 2021 年7 月 1 日 12:08

萍萍723 · 2021 年7 月 2 日 03:31

1、第一个集群压测的时候，TPS在1500~1700左右，第二个集群压测打开后，集群1的TPS下降了400~500
2、node 的哪些监控信息

yilong · 2021 年7 月 2 日 07:46

tidb-test1 和 tidb-test2 所有的 pod 都在 k8s-tidb1 ，k8s-tidb2, k8s-tidb3 上，所以可以查看 k8s-tidb1 ,2,3 的节点资源监控信息，比如整体内存和 cpu 使用情况。
pod 挂载的 pv 不知道是否也会使用的相同的磁盘，比如一块盘挂载了多个 pv。可以排查下 IO 整体使用。