Got too many pings from the client, closing the connection. 和TiKV server timeout

Got too many pings from the client, closing the connection.

这个问题是?如何排障和恢复

故障在22:10左右出现,tikv(TiKV server timeout)和pd(Got too many pings from the client, closing the connection)相继出现error;22:58重启后恢复

如下是tikv-trouble-shot和pd报表的截屏
链接:百度网盘-链接不存在 密码:6ym4
链接:百度网盘-链接不存在 密码:4482

烦请看下如何定位问题以及排障;后续如何避免

tikv日志:
err.log (1.1 MB)tikv49.log (3.8 KB)tidb_2215.log (31.8 KB)

PD 报错可以参考下这个帖子排查下相关情况。pd 会偶尔报错Got too many pings from the client, closing the connection?
tkv server timeout 指的是请求 TiKV 超时,请检查 TiKV Server 状态/监控/日志以及 TiDB Server 与 TiKV Server 之间的网络是否正常。

pd 会偶尔报错Got too many pings from the client, closing the connection?
这帖子都没解答推荐给我?难道是机器?

请检查 TiKV Server 状态/监控/日志以及 TiDB Server 与 TiKV Server 之间的网络是否正常。
上面已经贴了监控截屏,可以帮看下?

您好,该帖子中其他的同学已经提供相同问题的排查思路,请按照排查思路进行故障排查。从日志看就 TIKV 49 到 TiDB 和 PD 的网络异常,可以通过网络监控和 TiDB 监控中的 KV Error 以及 Overview 监控的 TCP Retrans 监控看一下对应的 TiKV backoff 确认一下是否有网络异常问题。



backoff 确实很高,如何调整呢?

tikv-trouble-shooting 看貌似有个时间点会是写高峰

另外的话,网络异常是果还是因呢?昨天和今天相同时间点(22:15)发现有tikv服务超时

顶一顶,求定位根因啊!

再顶一顶,连续三天晚间出现服务不可用了;求大神救命

帮忙看下 tikv log 在 22:00 - 22:30 之间的日志,kv backoff ops - tikvrpc 指的是 tidb 请求 tikv 的次数,… duration 指的是 tidb 请求 tikv rpc 重试的总时间。

请使用以下方式提供下 tidb / tikv-detail 监控面板信息,这边再确认下


打开 grafana 监控,先按 d 再按 shift+e 可以打开所有监控项。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

logs-tikv_10_16_16_49_20160.tar (25 KB)

普罗米修斯:
链接:链接:百度网盘-链接不存在 密码:ariu
链接:百度网盘-链接不存在 密码:8w3y

顶一顶

hi,请问下当前集群的版本是?在提供的日志中没有发现

5.7.25-TiDB-v4.0.0
然后日志是我dashboard搜的info,如果还需要提供其他级别我可以再发下;这两天服务是正常的(问号满屏)

https://github.com/pingcap/tidb/pull/17885
关于 get too many pings 在这个 issue 中修复了,4.0.2 修复的,所以此日志应该是干扰项。

kv backoff count - tikvrpc 指的是 tikv rpc 请求失败,可以看下当时集群的负载情况和网络情况,看下监控中 node exporter - load 、 network 、disk 的情况

这个需要提供哪些报表?

看下监控中 node exporter - load 、 network 、disk 的情况