tidb server节点每天固定时间query响应时间变慢,qps没有明显增加,但是pd tso wait趋势吻合,求问根源在哪里?

【 TiDB 使用环境】生产环境
【 TiDB 版本】7.5.3

如下图 每天下午4点半到7点半之间固定查询响应波动

server所在主机本身 CPU、内存、网络等都没有明显的波动吻合

排查最终看到 PD TSO wait 相关监控指标和 查询响应波动吻合,如下图

有人知道这个是什么原因导致的吗?

另外也确认
1、server节点没有定时任务、netstat 建立连接明显波动
2、server节点上的 show processlist 没有明显波动

看下tidb 到pd的 网络流量和延迟监控,blackexpoter nodeexporter里

1 个赞

那个时间段慢sql查了吗。看看热力图

是其他问题导致的慢查,已经定位到问题了。是其他任务产生大流量导致的网络波动

嗯,从监控看到server连接pd 获取tso 在那个时间出现大量响应慢的问题,怀疑是网络问题导致的。后来顺着这个思路到找到了问题根源

最最终根源是当前这个server节点的网络是千兆网口,同一个机柜另外一个集群的server节点收到影响很少,那个server节点网卡是万兆的。

和我知道的一个故障差不多。有人在工作时间备份数据库,导致机柜上的交换机带宽被占用,导致另外主机上跑的数据库性能急速下降

这个确实和我的问题很类似,机柜上的主机使用没有规划好,存在混用的情况,别的大数据任务给影响到了这个

服务器网口多,业务和其他的可以拆分开跑

嗯嗯,历史规划问题外加缩容机柜导致。已列入任务清单后续优化了

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。