TIKV的某个节点读流量瞬间飙升

return_sl · 2024 年4 月 18 日 02:51

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.7.25-TiDB-v5.2.4
【复现路径】做过哪些操作出现的问题
【遇到的问题：问题现象及影响】
tidb部署节点为：阿里云服务器部署的，2个tidb节点、3个kitv节点、一个tiflash。
突然间其中一个tikv节点读流量瞬间飙升300M，最近几天出现了好几次，不重启机器的话，一直维持在300M。但是我们排查没有相关业务大sql。表统计信息也都是大于80%的，请指点下排查思路。

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件：截图/日志/监控】

像风一样的男子 · 2024 年4 月 18 日 02:52

这个是典型的热点读问题，可以在dashboard中的topsql查看该时间段是哪些sql消耗资源多

return_sl · 2024 年4 月 18 日 03:21

关键问题就是，没看到有相关问题的sql，查询都在10秒内，内存都不超过1个G。

madcoder · 2024 年4 月 18 日 03:38

那就直接在机器上ｉｏｔｏｐ看看是那个进程占用高，

zhaokede · 2024 年4 月 18 日 04:16

看看业务是不是集中到了节点，形成热点了。
要打散热点

tidb菜鸟一只 · 2024 年4 月 18 日 06:24

dashboard流量可视化界面截图看下

DBAER · 2024 年4 月 18 日 06:27

dashboard 看一下流量可视化

DBAER · 2024 年4 月 18 日 06:30

也可以看一下这个视图

select * from information_schema.TIDB_HOT_REGIONS

Jellybean · 2024 年4 月 18 日 06:30

tikv的CPU和云盘读写BPS飙升，说明有大量的数据正在被访问，要解决问题就先弄清楚是谁来访问这些数据，所以排查
思路可以有下面几个方向：

先去Dashboard面板看一下topSQL、慢查询、SQL语句分析、热力图等，从整体确认下集群的运行状况。
在tikv节点使用资源升高期间，确认业务访问访问情况，查看QPS和延迟，确认业务访问量、访问链接数、负载等是否有变化
tikv长时间维持高访问，如果是SQL访问的，说明一定会有慢SQL出现，可以通过Dashboard或者慢查询日志尝试寻找对于的慢SQL，然后分析之。
如果业务负载没有变化、也没有慢SQL，就开始重点排查下tikv的Grafana监控面板、分析是否为集群内部的调度机制触发的问题，重点分析tikv的GC运行、RocksDB Compaction 等操作。
排查底层云主机的基础环境问题。

楼主可以先试试这几个分析思路排查。

return_sl · 2024 年4 月 18 日 07:11

流量可视化视图

DBAER · 2024 年4 月 18 日 07:14

调整颜色，查看颜色比较亮的部署，比较宽的地方的

return_sl · 2024 年4 月 18 日 07:17

上面图，上下俩个黄色的点，应该就是最热点吧，我先看看这几个表吧

路在何chu · 2024 年4 月 18 日 08:19

这个应该是热点表的大部分region正好在这个tikv节点，你自己可以统计一下

zhanggame1 · 2024 年4 月 18 日 10:29

颜色越亮越热你可以点