问题请教:Region heartbeat repart 350+opm 是否正常?

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:V3.1.1
  • 【问题描述】:在排查报警:TiKV_server_report_failure_msg_total时,发现监控中PD->Heartbeat->Region heartbeat repart面板(或OverView->PD->Region heartbeat repart面板)显示:有两个store节点 350+ opm,一个store节点小于10 opm, 请教是否显示集群TiKV和PD之间的通信出现了问题,TiKV和PD的负载都不高。

报警项的值:

Region heartbeat repart监控截图:

顺便问一下,这个面板监控数据的单位是:每秒TiKV和PD之间的心跳次数吗?

overview.pdf文档
xft-cluster-overview_2.pdf (4.7 MB)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出打印结果,请务必全选并复制粘贴上传。

1 个赞

Region heartbeat report 统计的是一分钟 TiKV 向 PD 发送的心跳个数

由于上报有一定周期性,可能 current 当前值在不同的 store 之间存在一定差异,通过监控的 Store Status 看到三个 store 都是 Up 的正常状态,表示 TiKV 和 PD之 间的通信是正常的

另外需要关注 store 的状态变化,如果通信异常,监控会显示该 store 的状态为 disconnected

关于tikv_server_report_failure_msg_total

官方介绍:

重要级别报警项

对于重要级别的报警,需要密切关注异常指标。

TiKV_server_report_failure_msg_total

  • 报警规则: sum(rate(tikv_server_report_failure_msg_total{type="unreachable"}[10m])) BY (store_id) > 10
  • 规则描述:表明无法连接远端的 TiKV。
  • 处理方法:
    1. 检查网络是否通畅。
    2. 检查远端 TiKV 是否挂掉。
    3. 如果远端 TiKV 没有挂掉,检查压力是否太大,参考 TiKV_channel_full_total 处理方法。

目前,集群pd和tikv之间通信也正常,TiKV也没有挂掉,TiKV压力也不大,为什么会有这个报警呢?您好,有什么建议吗?指导排查一下问题。谢谢。

1 个赞

这个告警对应的 Grafana 监控是 TiKV-Details – Errors – Server report failures

查看监控面板确认哪些 tikv 之间存在 failure;可以选择更长的时间范围,查看过去是否经常出现,偶尔少量出现,可能是网络方面的原因,比如网络存在延迟抖动或者丢包错误,会导致 TiKV 之间的 grpc 连接中断

  • 通过 Black Exporter 选取报错的 host 查看 ping 延迟情况

  • 通过 Node Exporter – Network 查看报错 host 的网络是否有丢包重传情况

1 个赞

非常感谢!

1 个赞

:+1::+1::+1:

1 个赞

350+opm,其中opm是什么意思?是什么单词的缩写呢?谢谢!

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。