TIKV的某个节点读流量瞬间飙升

tikv的CPU和云盘读写BPS飙升,说明有大量的数据正在被访问,要解决问题就先弄清楚是谁来访问这些数据,所以排查
思路可以有下面几个方向:

  1. 先去Dashboard面板看一下topSQL、慢查询、SQL语句分析、热力图等,从整体确认下集群的运行状况。
  2. 在tikv节点使用资源升高期间,确认业务访问访问情况,查看QPS和延迟,确认业务访问量、访问链接数、负载等是否有变化
  3. tikv长时间维持高访问,如果是SQL访问的,说明一定会有慢SQL出现,可以通过Dashboard或者慢查询日志尝试寻找对于的慢SQL,然后分析之。
  4. 如果业务负载没有变化、也没有慢SQL,就开始重点排查下tikv的Grafana监控面板、分析是否为集群内部的调度机制触发的问题,重点分析tikv的GC运行、RocksDB Compaction 等操作。
  5. 排查底层云主机的基础环境问题。

楼主可以先试试这几个分析思路排查。

2 个赞