TIKV的某个节点读流量瞬间飙升

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.7.25-TiDB-v5.2.4
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
tidb部署节点为:阿里云服务器部署的,2个tidb节点、3个kitv节点、一个tiflash。
突然间其中一个tikv节点读流量瞬间飙升300M,最近几天出现了好几次,不重启机器的话,一直维持在300M。但是我们排查没有相关业务大sql。表统计信息也都是大于80%的,请指点下排查思路。

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

这个是典型的热点读问题,可以在dashboard中的topsql查看该时间段是哪些sql消耗资源多

关键问题就是,没看到有相关问题的sql,查询都在10秒内,内存都不超过1个G。

那就直接在机器上 iotop看看 是那个进程占用高,

看看业务是不是集中到了节点,形成热点了。
要打散热点

dashboard流量可视化界面截图看下

1 个赞

dashboard 看一下流量可视化

1 个赞

也可以看一下这个视图

select * from information_schema.TIDB_HOT_REGIONS

tikv的CPU和云盘读写BPS飙升,说明有大量的数据正在被访问,要解决问题就先弄清楚是谁来访问这些数据,所以排查
思路可以有下面几个方向:

  1. 先去Dashboard面板看一下topSQL、慢查询、SQL语句分析、热力图等,从整体确认下集群的运行状况。
  2. 在tikv节点使用资源升高期间,确认业务访问访问情况,查看QPS和延迟,确认业务访问量、访问链接数、负载等是否有变化
  3. tikv长时间维持高访问,如果是SQL访问的,说明一定会有慢SQL出现,可以通过Dashboard或者慢查询日志尝试寻找对于的慢SQL,然后分析之。
  4. 如果业务负载没有变化、也没有慢SQL,就开始重点排查下tikv的Grafana监控面板、分析是否为集群内部的调度机制触发的问题,重点分析tikv的GC运行、RocksDB Compaction 等操作。
  5. 排查底层云主机的基础环境问题。

楼主可以先试试这几个分析思路排查。

2 个赞

流量可视化视图

调整颜色,查看颜色比较亮的部署,比较宽的地方的

上面图,上下俩个黄色的点,应该就是最热点吧,我先看看这几个表吧

这个应该是热点表的大部分region正好在这个tikv节点,你自己可以统计一下

颜色越亮越热 你可以点
image