regionHeartbeat 周期性的到10秒

h5n1 · 2021 年5 月 20 日 06:44

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

【TiDB 版本】4.0.12

【问题描述】

image902×326 29.5 KB

image911×328 69.1 KB

image891×347 53.7 KB

image1825×851 315 KB

image994×266 8.08 KB

数据库内从早8:30开始8个会话循环的从文件里load data.,下午3:30后 PD监控页面 gRPC-> 99% CompletedcommandsDuration中regionHeartbeat 每个5分钟会增到10秒持续4分钟。看了tikv tidb pd的detail里没有看到有类似频率的曲线，该怎么排查此问题，谢谢!

zhenjiaogao · 2021 年5 月 20 日 07:34

请问，当前 region heartbeat duration 周期性增长，对你那里的业务请求造成了什么影响，整个集群的 duration 升高了吗？

可以把 TiKV-Details 以及 PD 的 grafana 的监控导出下 ~

h5n1 · 2021 年5 月 20 日 07:47

yilong · 2021 年5 月 20 日 08:52

麻烦参考帖子导出下 over-view pd tidb 和 tikv-detail 的完整监控，多谢。

h5n1 · 2021 年5 月 21 日 02:34

Downloads.rar (2.8 MB)
你好监控导出见附件

yilong · 2021 年5 月 21 日 23:45

看起来主要时间消耗都在 67.82 ，这个节点还在导入数据吗？目前导入结束了吗？

h5n1 · 2021 年5 月 23 日 03:17

对在导数据， tidb server资源不足？

zhenjiaogao · 2021 年5 月 23 日 09:00

当前你上面的 Region 的心跳上报慢，每隔 5 分钟会增到 10 秒持续 4 分钟。这个理论上，不会影响数据写入的效率。反过来，数据写入生成 Region 后，会出现 Region 向 PD 上报心跳的现象。一句话概括，Region heartheat 可能是 load data 操作后，导致的现象，而不是问题的原因 ~

回归到问题本身，看上面 TiDB 监控周期性升高是大概 5 分钟一次，和你那里每隔 5 分钟 load data 数据有关。下述监控中 TiKV-Details 监控可见，整体写入耗时比较久，apply wait ，append ，propose wait，apply log duration ，raft-kv 的 wal 和 write duration 耗时都比较高：

如果计划详细的定位下，写入慢的原因，那么可以参照下面的『写慢』排查文档看下：

https://asktug.com/t/topic/68031/5

h5n1 · 2021 年5 月 24 日 22:46

2021-5-25 早上6.45 查看近12小时监控，regionHeartBeat仍然为10秒，且一直为10秒，数据库完全没有任何SQL跑在上面

5月19日下午变成10秒后一直未变化

zhenjiaogao · 2021 年5 月 25 日 02:29

回归下问题，你那里是想定位导入数据期间 tidb duration 升高，写入数据慢的问题，还是想弄清楚 pd 某一个监控项的释义，比如 region heartbeat duration 持续或者间歇性升高的原因？

h5n1 · 2021 年5 月 25 日 05:27

问题是找到增长到10秒的原因

zhenjiaogao · 2021 年5 月 25 日 08:53

嗯嗯，辛苦把 5 月 19 号 ~ 现在的 PD 的 grafana 监控数据导出下哈 ~

还有 PD 所在的服务器的 node-exporter 监控，也导出下，时间段 5 月 19 号 ~ 现在的 ~

另外，你那里大概在哪个时间点停止批量导入数据的？