问题请教：Region heartbeat repart 350+opm 是否正常？

liuhuanHappyStudy · 2020 年5 月 29 日 03:38

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：V3.1.1
【问题描述】：在排查报警：TiKV_server_report_failure_msg_total时，发现监控中PD->Heartbeat->Region heartbeat repart面板（或OverView->PD->Region heartbeat repart面板）显示：有两个store节点 350+ opm，一个store节点小于10 opm, 请教是否显示集群TiKV和PD之间的通信出现了问题，TiKV和PD的负载都不高。

报警项的值：

Region heartbeat repart监控截图：

顺便问一下，这个面板监控数据的单位是：每秒TiKV和PD之间的心跳次数吗？

overview.pdf文档
xft-cluster-overview_2.pdf (4.7 MB)

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出打印结果，请务必全选并复制粘贴上传。

qizheng · 2020 年5 月 29 日 03:59

Region heartbeat report 统计的是一分钟 TiKV 向 PD 发送的心跳个数

由于上报有一定周期性，可能 current 当前值在不同的 store 之间存在一定差异，通过监控的 Store Status 看到三个 store 都是 Up 的正常状态，表示 TiKV 和 PD之间的通信是正常的

另外需要关注 store 的状态变化，如果通信异常，监控会显示该 store 的状态为 disconnected

liuhuanHappyStudy · 2020 年5 月 29 日 04:09

关于tikv_server_report_failure_msg_total

官方介绍：

对于重要级别的报警，需要密切关注异常指标。

报警规则： sum(rate(tikv_server_report_failure_msg_total{type="unreachable"}[10m])) BY (store_id) > 10
规则描述：表明无法连接远端的 TiKV。
处理方法：
1. 检查网络是否通畅。
2. 检查远端 TiKV 是否挂掉。
3. 如果远端 TiKV 没有挂掉，检查压力是否太大，参考 TiKV_channel_full_total 处理方法。

目前，集群pd和tikv之间通信也正常，TiKV也没有挂掉，TiKV压力也不大，为什么会有这个报警呢？您好，有什么建议吗？指导排查一下问题。谢谢。

qizheng · 2020 年5 月 29 日 05:21

这个告警对应的 Grafana 监控是 TiKV-Details – Errors – Server report failures

查看监控面板确认哪些 tikv 之间存在 failure；可以选择更长的时间范围，查看过去是否经常出现，偶尔少量出现，可能是网络方面的原因，比如网络存在延迟抖动或者丢包错误，会导致 TiKV 之间的 grpc 连接中断

liuhuanHappyStudy · 2020 年5 月 29 日 05:38

非常感谢！

不懂就问 · 2020 年5 月 29 日 06:33

mengling2020 · 2020 年12 月 17 日 13:56

350+opm，其中opm是什么意思？是什么单词的缩写呢？谢谢！

system · 2022 年10 月 31 日 19:12

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。