Got too many pings from the client, closing the connection.
这个问题是?如何排障和恢复
故障在22:10左右出现,tikv(TiKV server timeout
)和pd(Got too many pings from the client, closing the connection
)相继出现error;22:58重启后恢复
如下是tikv-trouble-shot和pd报表的截屏
链接:百度网盘-链接不存在 密码:6ym4
链接:百度网盘-链接不存在 密码:4482
烦请看下如何定位问题以及排障;后续如何避免
tikv日志:
err.log (1.1 MB)tikv49.log (3.8 KB)tidb_2215.log (31.8 KB)
小王同学
2
PD 报错可以参考下这个帖子排查下相关情况。pd 会偶尔报错Got too many pings from the client, closing the connection?
tkv server timeout 指的是请求 TiKV 超时,请检查 TiKV Server 状态/监控/日志以及 TiDB Server 与 TiKV Server 之间的网络是否正常。
pd 会偶尔报错Got too many pings from the client, closing the connection?
这帖子都没解答推荐给我?难道是机器?
请检查 TiKV Server 状态/监控/日志以及 TiDB Server 与 TiKV Server 之间的网络是否正常。
上面已经贴了监控截屏,可以帮看下?
您好,该帖子中其他的同学已经提供相同问题的排查思路,请按照排查思路进行故障排查。从日志看就 TIKV 49 到 TiDB 和 PD 的网络异常,可以通过网络监控和 TiDB 监控中的 KV Error 以及 Overview 监控的 TCP Retrans 监控看一下对应的 TiKV backoff 确认一下是否有网络异常问题。
backoff 确实很高,如何调整呢?
tikv-trouble-shooting 看貌似有个时间点会是写高峰
另外的话,网络异常是果还是因呢?昨天和今天相同时间点(22:15)发现有tikv服务超时
再顶一顶,连续三天晚间出现服务不可用了;求大神救命
来了老弟
8
帮忙看下 tikv log 在 22:00 - 22:30 之间的日志,kv backoff ops - tikvrpc 指的是 tidb 请求 tikv 的次数,… duration 指的是 tidb 请求 tikv rpc 重试的总时间。
请使用以下方式提供下 tidb / tikv-detail 监控面板信息,这边再确认下
打开 grafana 监控,先按 d 再按 shift+e 可以打开所有监控项。
(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl
(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。
(3)、使用这个 full-page-screen-capture 插件进行截屏保存
来了老弟
11
hi,请问下当前集群的版本是?在提供的日志中没有发现
5.7.25-TiDB-v4.0.0
然后日志是我dashboard搜的info,如果还需要提供其他级别我可以再发下;这两天服务是正常的(问号满屏)
来了老弟
13
https://github.com/pingcap/tidb/pull/17885
关于 get too many pings 在这个 issue 中修复了,4.0.2 修复的,所以此日志应该是干扰项。
kv backoff count - tikvrpc 指的是 tikv rpc 请求失败,可以看下当时集群的负载情况和网络情况,看下监控中 node exporter - load 、 network 、disk 的情况
来了老弟
15
看下监控中 node exporter - load 、 network 、disk 的情况