关于监控中regionheartbeat的疑问

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【概述】场景+问题概述
在grafana中,overview中pd的regionheartbeat此指标指的是什么呢?
我们这周期性为10s

【TiDB 版本】
v4.0.8

我的问题:
1,此指标是什么含义?
2,关于此指标的解释在文档的什么位置呢?
3,我们这里是周期性的,那还可以把哪些指标跟它一起来观察呢?

Overview 面板重要监控指标详解

https://docs.pingcap.com/zh/tidb/v4.0/grafana-overview-dashboard#pd

https://docs.pingcap.com/zh/tidb/v4.0/pd-scheduling-best-practices#pd-调度策略最佳实践

region heartbeat,每个tikv上报pd的心跳,如果心跳上报过多,超过10w,考虑扩容kv,或者尝试静默region,结合99% region health latency 判断


图中红框中指标单位为秒,而且是周期性10秒。我查看了v4.0.8版本的其他集群,这个也是固定10秒。我查看v5.0.2版本,发现没有这个指标了。

又GET到一个知识点

我只想知道图中我红框中指标的含义、解释,最好把这个指标的官档发一下,还有这里为什么是固定时间呢?(我们这里是固定10秒),不要左右而言它好吗?

@yilong 是不是这里设置的10s?

pd-store-heartbeat-tick-interval

  • 触发 store 对 PD 心跳的时间间隔,0 表示不启用。
  • 默认值:10s
  • 最小值:0

https://docs.pingcap.com/zh/tidb/v4.0/tikv-configuration-file#pd-store-heartbeat-tick-interval

含义解释在第一个回复里已经有了,这个10s我不确定,找yilong再确认一下

在你准备要通过群组或论坛提出技术问题前,请先自己尝试通过各种手段搜索答案,包括但不限于:

任何不友好的语言都无益于问题的解决
反而影响义务回复你问题小伙伴的积极性

  • 提问时要有一定的礼貌,尤其通过社区向个人提问时至关重要。
    • 别人没有义务一定要给你解决问题,尤其当该问题需要花费不少时间去梳理和解答。
    • 应该礼貌地请教问题,不管问题最终是否得到解答,都能够表示感谢。客气一点肯定会增加你得到有用回应的机会。
2赞

histogram_quantile(0.99, sum(rate(grpc_server_handling_seconds_bucket{grpc_method="RegionHearbeat"}[5m])) by (grpc_method, le))

在你集群的 prometheus 上查询这个,结果是什么? 时间拉长一点,截个图看看。

看起来这个图展示的是 pd 的 grpc 请求的 99% 耗时,新版本删掉了这个 RegionHeartbeat 指标,也许是因为当时确实搞错了,Hearbeat 即使是 10s 一次,也不该 duration 是 10s


可能真如您所说,这个指标真有些问题,我这边都是10s,您受累看一下您那集群中此指标值也是10s吗?

我已经升级到最新版了,已经没有 RegionHearbeat 的指标了,这个地方如果是bug的话,大家应该都一样。
我感觉你可以不用太关注这个,如果心跳出了问题,肯定有其他报警报出来。

我想看你的截图,是因为上面Grafana里那条线 不是持续性的10s ,它一会儿是10s一会是0,有点奇怪,也许是可视化的问题。后来你直接查询出来的,就一直是 10s 了

1赞

当时看到只有这一个是秒,其他都是ms,差太多了,所以就特别关注了。

感谢这么耐心的解答!

目前可以暂时忽略这个指标,心跳处理相关的可以看 Heartbeat 那个面板