tikv随机性的CPU过高导致服务不可用

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】

【概述】 场景 + 问题概述
三台tikv 随机出现cpu变高的情况达到75%+ ,导致服务直接不可用。但是另外其他的机器cpu都很低

【背景】 做过哪些操作
没有做过什么操作,就是使用用户多了

【现象】 业务和数据库现象
导致页面所有接口读写都很慢,数据库直接卡死

【问题】 当前遇到的问题,参考 AskTUG 的 Troubleshooting 读性能慢-慢语句

【统计信息是否最新】

    【执行计划内容】

    【 SQL 文本、schema 以及 数据分布】

【业务影响】

【TiDB 版本】
v5.4
【附件】 相关日志及监控(https://metricstool.pingcap.com/)

看下tikv detail 下thread CPU 、GC监控、rocksdb的compaction监控

你这有慢sql吧。。

看慢sql统计是没有问题的,当cpu上来之后都成慢sql了

thread cpu下面那些CPU利用率呢,看grpc cpu,有热点,看看慢SQL,dashboard上 流量可视化可以看热点表

不知道为啥显示没有数据

这个可以确认是热点问题导致的码

这个是grpc

看下analyze状态呢:show analyze status;
是不是有一直不成功的analyze,或者大表analyze导致的。

另外看下analyze的相关配置:
show variables like ‘%analyze%’

这个是不是有问题
image

按执行时间 看下慢SQL

可以看下cpu升高的时间有没有对应的analyze failed的消息,然后可以尝试下更改start_time,end_time到一个小时,或者一个小的时间段,更改version为1观测下情况

我看都是完成的,在什么地方改时间

流量可视化的图看下

我个人觉得是analyze导致的,系统变量直接set就行
https://docs.pingcap.com/zh/tidb/stable/system-variables#tidb_auto_analyze_start_time

如果是analyze导致的,需要怎么调整

细长的亮条就是热点的对象,先分析下相关的SQL执行计划