tikv的CPU和云盘读写BPS飙升,说明有大量的数据正在被访问,要解决问题就先弄清楚是谁来访问这些数据,所以排查
思路可以有下面几个方向:
- 先去Dashboard面板看一下topSQL、慢查询、SQL语句分析、热力图等,从整体确认下集群的运行状况。
- 在tikv节点使用资源升高期间,确认业务访问访问情况,查看QPS和延迟,确认业务访问量、访问链接数、负载等是否有变化
- tikv长时间维持高访问,如果是SQL访问的,说明一定会有慢SQL出现,可以通过Dashboard或者慢查询日志尝试寻找对于的慢SQL,然后分析之。
- 如果业务负载没有变化、也没有慢SQL,就开始重点排查下tikv的Grafana监控面板、分析是否为集群内部的调度机制触发的问题,重点分析tikv的GC运行、RocksDB Compaction 等操作。
- 排查底层云主机的基础环境问题。
楼主可以先试试这几个分析思路排查。