tikv 节点间网络流量异常的大

starsky · 2023 年11 月 16 日 08:38

那之前没啥业务流量还 5M/s，可能是什么操作呢

dba远航 · 2023 年11 月 16 日 09:12

会不会是REGION在重新平衡？

Jellybean · 2023 年11 月 16 日 10:58

确认一下集群是否有热点问题，确认数据调度情况，在pd的面板可以看

starsky · 2023 年11 月 17 日 02:20

https://asktug.com/uploads/default/original/4X/3/d/e/3de06789f1983b378d6bb7c2b0f441ce6d0276c5.jpeg 监控中 region 的调度蛮小的，没看出啥异常，大佬能看出啥吗

dba远航 · 2023 年11 月 17 日 02:45

我也是猜测存在这种可能性，具体是有命令可以查看的，是哪个命令有些忘记了，学习视频上有

starsky · 2023 年11 月 17 日 02:47

dmall_rdp_voucher-PD - Grafana (2023_11_17 10_30_55).html (2.8 MB)
pd 面板监控下载下来了，重要的指标都有，看【 hot write】【Store Write rate bytes】 6 点前写入量基本在 30kB/s 左右，但网络监控那块有 5M/s 的 input 流量，差距太大了

duzq · 2023 年11 月 20 日 14:06

是 raft 心跳的流量吧

andone · 2023 年11 月 21 日 10:25

有可能是region在调度

starsky · 2023 年12 月 25 日 06:58

大佬们，终于定位到原因了，是 check leader 的流量，6.5.3 之前版本在网络传输前没有压缩，6.5.3 之后修复了。升级到 6.5.6 效果非常明显。还有一点就是静默 region 这个功能对流量的影响也非常大。

img_v3_026c_76cb3246-3296-429b-853f-11da93fe5d5g

有猫万事足 · 2023 年12 月 25 日 07:53

有始有终，特别棒。

h5n1 · 2023 年12 月 25 日 09:01

是咋定位分析到的

starsky · 2023 年12 月 27 日 02:21

笨办法，复现这个问题

新建一个单 tikv 节点的集群，流量没异常
建一个 30000 的空 region 表，流量还没异常
扩容到两个 tikv 节点，流量异常了
逐个过监控项，看 3 的时间点哪个监控项有异常，就看到tikvDetail－ResolvedTs 面板比较吻合（同事给力）

5867fc411a60b23c99e7f56d19a2fc001771×819 54.9 KB

system · 2024 年2 月 25 日 02:21

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。