-
问题定位
通过 TiDB 监控
Blackbox-expoter → Network Status → Ping Latency
来确认 Instance 到各个 host 的网络情况,正常情况下各个服务器延迟抖动应在 2ms 以内,如果抖动过大需要排查对应 Host 网络延迟的根因。
(如果展示数据因为过长而不能看清,可以通过修改 监控面板 Edit → A → Legend → {{ping}} 来展示 目标 Host IP) -
解决方法
更换更加稳定的网络线路,建议满足万兆带宽,Ping 延迟在 200μs 以内,丢包率 0%带宽打满
-
问题定位
通过监控项
Overview → System Info → Network Traffic
观察问题时间段内是否有 host出现网络带宽接近 100% -
解决方法
如果服务节点间的混部导致的网络带宽打满情况,请排查部署是否符合 部署最佳实践
如果问题节点是 某一 TiDB 节点,应排查 TiDB 的请求是否经过 LB 进行负责均衡,避免所有请求都集中在一台 TiDB 上。