PD: send keepalive message fail

Shaun · 2020 年9 月 28 日 09:00

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：tidb 4.0.6
【问题描述】：tidb和pd部署在一起 3个tikv

最近PD频繁报错
[heartbeat_streams.go:122] [“send keepalive message fail”] [target-store-id=5] [error=EOF]

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出打印结果，请务必全选并复制粘贴上传。

zhenjiaogao · 2020 年9 月 28 日 10:06

1、这个报错可能是 tikv 失连或者重连的时候会出现，有个 issues：

https://github.com/tikv/pd/issues/2920

2、请确认下当前 store 5 的状态，是否出现过失连、重连的情况，另外，请确认下 store 5 到 pd 的网络情况。

3、这个报错看起来时间比较规律大概 10 分钟一次，请将上述截图同时间段的 store 5 的 tikv 日志上传下~~

Shaun · 2020 年9 月 29 日 02:20

报错时store 5 的 tikv 日志.TXT (106.9 KB)

zhenjiaogao · 2020 年9 月 29 日 03:22

store 5 到 pd leader 的网络质量是怎样的，也可以检查下 store 5 和 pd leader 相互间的网络延时或者带宽占用情况：
1、store 5 和 pd leader 间的网络延时，如果部署了整套的监控可以使用 blackbox 来查看
2、store 5 以及 pd leader 的网络带宽情况，在 node-exporter 可以看到
3、store 5 到 pd 间的网络丢包情况

tikv-detail 监控：
1、整体 tikv-details 的监控，导出问题时间段对应的数据
2、单独的 store 5 的 tikv-details 的监控，导出问题时间段对应的数据

监控导出工具：

如果方便可以把相关的监控信息上传下~