集群整体响应变慢

【 TiDB 使用环境】生产环境
【遇到的问题】集群大量响应变慢,出现tikv节点下线,15点30重启服务器。

查询tidb日志,大量告警

[WARN] [pd.go:131] [“get timestamp too slow”] [“cost time”=33.477587ms]

查询pd leader日志,没有明显报错

查询tikv日志,大量报错
[ERROR] [peer.rs:3488] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Full)] [target=“id: 5487695 store_id: 4”] [peer_id=5487696] [region_id=5487693] [type=MsgHibernateResponse]

同时,网络带宽持续偏高

可以切换下PD-LEADER,

pd-leader没报错,为什么要切换?

啥版本,看起来像是 Bug…
KV:Raftstore:Transport

出错代表同步完全失效了…

V5.1.0版本

查下 region 的数量先

看看过了一夜,是否都copy 完成了

region count是一致的,leader count有略微的差异

还报错么,,应该没有了把 :crazy_face:

还是一样,同样的错误

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。