【TiDB 使用环境】生产环境
【TiDB 版本】8.5
【操作系统】rocky9.1
【部署方式】zstack部署
【集群数据量】非常小
【集群节点数】3kv 2tidb 3pd
【问题复现路径】每天晚上2.30后就出现各种ping超时现象
是不是网络有问题啊,一台还好,如果都有这个问题的话,需要查下了
这些服务器在两台物理机上都是内网的,按理说应该没事,看上去每天出这个延迟像是每晚有什么定时任务在跑
1 个赞
看着像是有服务跑定时了
1 个赞
日志显示的是i/o timeout`而非"connection refused",说明TCP层能解析目标IP,但无法在超时时间内建立连接。错误状态为 TRANSIENT FAILURE暂时性故障,且后续自动恢复,符合网络波动的特征建议结合网络设备日志和监控数据进一步确认根因,并对关键链路做冗余优化。
1 个赞
是虚拟机么?我们遇到过一次是晚上有一些业务服务器要做日结和备份,虚拟平台会把资源都调走,导致部分服务器性能直线下降。
是虚拟机,这两台物理机都是虚拟机,不过物理机只给tidb使用的没别的服务
2台物理机 虚拟了13台服务器给tidb使用,没有其他服务器在这两台物理机上抢占资源
1 个赞
有没有相关的定时任务再跑,而且还是跑大量数据的,造成网络超时的呢。
那可能跟我们那次遇到的不一样了。还是从日终处理作业上找找吧,也可能不是数据库作业,比如服务器备份之类的。
超时的时候看下tidb服务器相关的其它资源情况呢。
为何有断点啊,看下日志呢。
看下日志报错,感觉是在跑大量数据的定时任务在跑批。
物理机监控日志呢
网络方面,物理网络,有没有大量数据的定时任务,这些都综合排查一下吧
从监控上看,有断点,需要看下什么原因造成的。
物理机的日志呢,物理机把IO占了也会有这个现象