新部署的TiDB在3台虚拟机上,总会出现某一台虚拟机网络延迟很高,导致无法访问的情况

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
新部署的TiDB在3台虚拟机上,总会出现某一台虚拟机网络延迟很高,导致无法访问的情况,是配置的有问题吗?CPU、内存和读写都不高。
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面


【附件:截图/日志/监控】

看下监控,资源使用上有瓶颈吗,资源至少要满足官方的建议:https://docs.pingcap.com/zh/tidb/stable/hardware-and-software-requirements#服务器建议配置

估计是资源问题

云主机吗?去找数据缺失时,网络流量的监控

是本地的物理机,虚拟成3台部署测试的

vmware?docker?还是国产虚拟化?

vmware

每台虚拟机 16核 + 32G内存 + 200GB固态

你这个截图我感觉是网络带宽打满造成了丢包?偶发还是能复现?物理机上除了3台虚拟机,还有其他的虚拟机吗?

1 个赞

物理机上只有3台虚拟机,也没有安装出TiDB外其他服务,时常发生并不稳定,进行数据库建立以及大量数据的写入会复现问题

创建空库也会稳定复现吗?

新建数据库也会发生

这个就有点玄乎了,虚拟机上防火墙关了吗?

CPU 和内存:确保物理机的CPU和内存资源没有被过度使用。高负载的CPU或内存可能导致虚拟机性能下降。
磁盘I/O:检查磁盘的读写速度,特别是如果虚拟机存储在高负载的磁盘上(如HDD而非SSD)。
网络带宽:确认物理机的网络带宽是否足够支持所有虚拟机的网络需求。物理网卡是万兆还是千兆?
网络适配器:检查物理机上的网络适配器是否支持足够的带宽和连接数。

你看下grafana的监控里面overview-systeminfo那里,是不是3个虚拟机经常有一个资源占用率非常高,应该是你的tidb-server在哪台虚拟机上,你高负载应用负载到这个机器上了就,就会产生这种情况。

有haproxy吗?建议加上tidb实例负载均衡试试。应该是混合部署,抢资源导致,个人认为haproxy后可以缓解这个问题现象。

:thinking:看上去有TiProxy,是不是负载规则有倾斜?

和我这测试环境一样,资源不够,网络带宽又低