集群整体响应变慢

Kongdom · 2023 年1 月 29 日 09:14

【 TiDB 使用环境】生产环境
【遇到的问题】集群大量响应变慢，出现tikv节点下线，15点30重启服务器。

查询tidb日志，大量告警

[WARN] [pd.go:131] [“get timestamp too slow”] [“cost time”=33.477587ms]

查询pd leader日志，没有明显报错

查询tikv日志，大量报错
[ERROR] [peer.rs:3488] [“failed to send extra message”] [err_code=KV:Raftstore:Transport] [err=Transport(Full)] [target=“id: 5487695 store_id: 4”] [peer_id=5487696] [region_id=5487693] [type=MsgHibernateResponse]

同时，网络带宽持续偏高

dbaspace · 2023 年1 月 29 日 10:09

可以切换下PD-LEADER，

Kongdom · 2023 年1 月 29 日 10:10

pd-leader没报错，为什么要切换？

xfworld · 2023 年1 月 29 日 14:13

啥版本，看起来像是 Bug…
KV:Raftstore:Transport

出错代表同步完全失效了…

Kongdom · 2023 年1 月 29 日 14:41

V5.1.0版本

xfworld · 2023 年1 月 30 日 01:18

查下 region 的数量先

看看过了一夜，是否都copy 完成了

Kongdom · 2023 年1 月 30 日 05:51

region count是一致的，leader count有略微的差异

xfworld · 2023 年1 月 30 日 06:08

还报错么，，应该没有了把

Kongdom · 2023 年1 月 30 日 06:26

还是一样，同样的错误

Kongdom · 2023 年9 月 7 日 03:57

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。