关于监控中regionheartbeat的疑问

qhd2004 · 2021 年6 月 24 日 08:22

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

【概述】场景+问题概述
在grafana中，overview中pd的regionheartbeat此指标指的是什么呢？
我们这周期性为10s

【TiDB 版本】
v4.0.8

我的问题：
1，此指标是什么含义？
2，关于此指标的解释在文档的什么位置呢？
3，我们这里是周期性的，那还可以把哪些指标跟它一起来观察呢？

Kongdom · 2021 年6 月 24 日 08:51

Overview 面板重要监控指标详解

region heartbeat，每个tikv上报pd的心跳，如果心跳上报过多，超过10w，考虑扩容kv，或者尝试静默region，结合99% region health latency 判断

qhd2004 · 2021 年6 月 25 日 02:27

图中红框中指标单位为秒，而且是周期性10秒。我查看了v4.0.8版本的其他集群，这个也是固定10秒。我查看v5.0.2版本，发现没有这个指标了。

Kongdom · 2021 年6 月 28 日 03:37

又GET到一个知识点

qhd2004 · 2021 年6 月 28 日 03:53

我只想知道图中我红框中指标的含义、解释，最好把这个指标的官档发一下，还有这里为什么是固定时间呢？（我们这里是固定10秒），不要左右而言它好吗？

Kongdom · 2021 年6 月 28 日 04:01

@yilong 是不是这里设置的10s？

pd-store-heartbeat-tick-interval

触发 store 对 PD 心跳的时间间隔，0 表示不启用。

默认值：10s

最小值：0

Kongdom · 2021 年6 月 28 日 04:04

含义解释在第一个回复里已经有了，这个10s我不确定，找yilong再确认一下

Billmay表妹 · 2021 年6 月 28 日 05:16

在你准备要通过群组或论坛提出技术问题前，请先自己尝试通过各种手段搜索答案，包括但不限于：

任何不友好的语言都无益于问题的解决
反而影响义务回复你问题小伙伴的积极性

提问时要有一定的礼貌，尤其通过社区向个人提问时至关重要。
- 别人没有义务一定要给你解决问题，尤其当该问题需要花费不少时间去梳理和解答。
- 应该礼貌地请教问题，不管问题最终是否得到解答，都能够表示感谢。客气一点肯定会增加你得到有用回应的机会。

buptzhoutian · 2021 年6 月 28 日 05:47

histogram_quantile(0.99, sum(rate(grpc_server_handling_seconds_bucket{grpc_method="RegionHearbeat"}[5m])) by (grpc_method, le))

在你集群的 prometheus 上查询这个，结果是什么? 时间拉长一点，截个图看看。

看起来这个图展示的是 pd 的 grpc 请求的 99% 耗时，新版本删掉了这个 RegionHeartbeat 指标，也许是因为当时确实搞错了，Hearbeat 即使是 10s 一次，也不该 duration 是 10s

qhd2004 · 2021 年6 月 28 日 06:45

可能真如您所说，这个指标真有些问题，我这边都是10s，您受累看一下您那集群中此指标值也是10s吗？

buptzhoutian · 2021 年6 月 28 日 07:22

我已经升级到最新版了，已经没有 RegionHearbeat 的指标了，这个地方如果是bug的话，大家应该都一样。
我感觉你可以不用太关注这个，如果心跳出了问题，肯定有其他报警报出来。

我想看你的截图，是因为上面Grafana里那条线不是持续性的10s ，它一会儿是10s一会是0，有点奇怪，也许是可视化的问题。后来你直接查询出来的，就一直是 10s 了

qhd2004 · 2021 年6 月 29 日 03:03

当时看到只有这一个是秒，其他都是ms，差太多了，所以就特别关注了。

感谢这么耐心的解答！

rleungx · 2021 年6 月 29 日 06:45

目前可以暂时忽略这个指标，心跳处理相关的可以看 Heartbeat 那个面板

system · 2022 年10 月 31 日 19:04

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。