为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【概述】场景+问题概述
在grafana中,overview中pd的regionheartbeat此指标指的是什么呢?
我们这周期性为10s
【TiDB 版本】
v4.0.8
我的问题:
1,此指标是什么含义?
2,关于此指标的解释在文档的什么位置呢?
3,我们这里是周期性的,那还可以把哪些指标跟它一起来观察呢?
为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【概述】场景+问题概述
在grafana中,overview中pd的regionheartbeat此指标指的是什么呢?
我们这周期性为10s
【TiDB 版本】
v4.0.8
我的问题:
1,此指标是什么含义?
2,关于此指标的解释在文档的什么位置呢?
3,我们这里是周期性的,那还可以把哪些指标跟它一起来观察呢?
https://docs.pingcap.com/zh/tidb/v4.0/grafana-overview-dashboard#pd
https://docs.pingcap.com/zh/tidb/v4.0/pd-scheduling-best-practices#pd-调度策略最佳实践
region heartbeat,每个tikv上报pd的心跳,如果心跳上报过多,超过10w,考虑扩容kv,或者尝试静默region,结合99% region health latency 判断
又GET到一个知识点
@yilong 是不是这里设置的10s?
pd-store-heartbeat-tick-interval
- 触发 store 对 PD 心跳的时间间隔,0 表示不启用。
- 默认值:10s
- 最小值:0
https://docs.pingcap.com/zh/tidb/v4.0/tikv-configuration-file#pd-store-heartbeat-tick-interval
含义解释在第一个回复里已经有了,这个10s我不确定,找yilong再确认一下
在你准备要通过群组或论坛提出技术问题前,请先自己尝试通过各种手段搜索答案,包括但不限于:
任何不友好的语言都无益于问题的解决
反而影响义务回复你问题小伙伴的积极性
histogram_quantile(0.99, sum(rate(grpc_server_handling_seconds_bucket{grpc_method="RegionHearbeat"}[5m])) by (grpc_method, le))
在你集群的 prometheus 上查询这个,结果是什么? 时间拉长一点,截个图看看。
看起来这个图展示的是 pd 的 grpc 请求的 99% 耗时,新版本删掉了这个 RegionHeartbeat 指标,也许是因为当时确实搞错了,Hearbeat 即使是 10s 一次,也不该 duration 是 10s
我已经升级到最新版了,已经没有 RegionHearbeat 的指标了,这个地方如果是bug的话,大家应该都一样。
我感觉你可以不用太关注这个,如果心跳出了问题,肯定有其他报警报出来。
我想看你的截图,是因为上面Grafana里那条线 不是持续性的10s ,它一会儿是10s一会是0,有点奇怪,也许是可视化的问题。后来你直接查询出来的,就一直是 10s 了
当时看到只有这一个是秒,其他都是ms,差太多了,所以就特别关注了。
感谢这么耐心的解答!
目前可以暂时忽略这个指标,心跳处理相关的可以看 Heartbeat 那个面板
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。