pd节点间通信出现i/o timeout

【 TiDB 使用环境】测试环境

【 TiDB 版本】5.3.1

【遇到的问题】
从监控发现事务延时明显抖动,对应时间点TSO wait Duration、KVbackoff OPS、Load Schema Duration都有相同程度的上涨。

排查PD节点日志发现主要出现以下几种类型的Warn:

[2022/04/25 09:17:25.947 +08:00] [WARN] [stream.go:436] ["lost TCP streaming connection with remote peer"] [stream-reader-type="stream Message"] [local-member-id=1342dc1f30772c99] [remote-peer-id=550f2407e819bc51] [error="read tcp 10.0.6.236:42226->10.0.6.237:2380: i/o timeout"]
[2022/04/25 09:17:31.127 +08:00] [WARN] [etcdutil.go:118] ["kv gets too slow"] [request-key=/pd/7089991406729254835/config] [cost=10.000942766s] [error="context deadline exceeded"]
[2022/04/25 09:17:31.127 +08:00] [ERROR] [etcdutil.go:123] ["load from etcd meet error"] [key=/pd/7089991406729254835/config] [error="[PD:etcd:ErrEtcdKVGet]context deadline exceeded"]
[2022/04/25 09:17:31.127 +08:00] [WARN] [manager.go:102] ["failed to reload persist options"]
[2022/04/25 09:17:31.554 +08:00] [WARN] [util.go:144] ["apply request took too long"] [took=5.000173154s] [expected-duration=100ms] [prefix="read-only range "] [request="key:\"/tidb/store/gcworker/saved_safe_point\" "] [response=] [error="context deadline exceeded"]

完整的日志放在附件中。

怀疑是网络问题,排查了节点ping监控,相同时间点237到235节点有明显抖动:

有几点疑问:
1、这种是不是就实锤了是网络原因导致的问题。
2、如果是网络问题,下一步应该怎样去排查网络抖动的原因。
3、日志中和etcd有关的kv gets too slow也是和网络有关吗

【复现路径】

【问题现象及影响】

【附件】

pd-log.zip (1.2 MB)

1 个赞

用 iperf3 类似这样的工具测试一下网络的稳定性

参考这里:

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。