TiDB 的问答社区

tikv随机性的CPU过高导致服务不可用

🪐 TiDB 技术问题性能调优

TiDBer_zhw 2022 年3 月 30 日 08:23 1

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】

【概述】场景 + 问题概述
三台tikv 随机出现cpu变高的情况达到75%+ ，导致服务直接不可用。但是另外其他的机器cpu都很低

【背景】做过哪些操作
没有做过什么操作，就是使用用户多了

【现象】业务和数据库现象
导致页面所有接口读写都很慢，数据库直接卡死

【问题】当前遇到的问题，参考 AskTUG 的 Troubleshooting 读性能慢-慢语句

【统计信息是否最新】

    【执行计划内容】

    【 SQL 文本、schema 以及 数据分布】

【业务影响】

【TiDB 版本】
v5.4
【附件】相关日志及监控（https://metricstool.pingcap.com/)

TiUP Cluster Display 信息

image1346×800 61.9 KB
TiUP CLuster Edit config 信息
TiDB-Overview Grafana监控

image1854×849 151 KB
TiDB Grafana 监控

image1847×613 153 KB

image1843×755 141 KB

image1835×659 132 KB
TiKV Grafana 监控

image1819×719 112 KB

image1834×732 101 KB

image1837×620 73.4 KB
PD Grafana 监控

image1831×743 126 KB

image1838×672 155 KB
对应模块日志（包含问题前后 1 小时日志）

h5n1 (H5n1) 2022 年3 月 30 日 08:26 2

看下tikv detail 下thread CPU 、GC监控、rocksdb的compaction监控

田帅萌7 (田帅萌) 2022 年3 月 30 日 08:30 3

你这有慢sql吧。。

TiDBer_zhw 2022 年3 月 30 日 08:40 4

TiDBer_zhw 2022 年3 月 30 日 08:41 5

看慢sql统计是没有问题的，当cpu上来之后都成慢sql了

h5n1 (H5n1) 2022 年3 月 30 日 08:42 6

thread cpu下面那些CPU利用率呢，看grpc cpu，有热点，看看慢SQL，dashboard上流量可视化可以看热点表

TiDBer_zhw 2022 年3 月 30 日 08:45 7

不知道为啥显示没有数据

TiDBer_zhw 2022 年3 月 30 日 08:46 8

这个可以确认是热点问题导致的码

TiDBer_zhw 2022 年3 月 30 日 08:47 9

这个是grpc

db_user (Db User) 2022 年3 月 30 日 08:59 10

看下analyze状态呢：show analyze status;
是不是有一直不成功的analyze，或者大表analyze导致的。

另外看下analyze的相关配置：
show variables like ‘%analyze%’

TiDBer_zhw 2022 年3 月 30 日 09:02 11

这个是不是有问题

h5n1 (H5n1) 2022 年3 月 30 日 09:07 12

按执行时间看下慢SQL

db_user (Db User) 2022 年3 月 30 日 09:10 13

可以看下cpu升高的时间有没有对应的analyze failed的消息，然后可以尝试下更改start_time,end_time到一个小时，或者一个小的时间段，更改version为1观测下情况

TiDBer_zhw 2022 年3 月 30 日 09:16 15

我看都是完成的，在什么地方改时间

TiDBer_zhw 2022 年3 月 30 日 09:22 16

h5n1 (H5n1) 2022 年3 月 30 日 09:23 17

流量可视化的图看下

db_user (Db User) 2022 年3 月 30 日 09:24 18

我个人觉得是analyze导致的，系统变量直接set就行
https://docs.pingcap.com/zh/tidb/stable/system-variables#tidb_auto_analyze_start_time

TiDBer_zhw 2022 年3 月 30 日 09:26 19

TiDBer_zhw 2022 年3 月 30 日 09:27 20

如果是analyze导致的，需要怎么调整

h5n1 (H5n1) 2022 年3 月 30 日 09:32 21

细长的亮条就是热点的对象，先分析下相关的SQL执行计划

©2023 TiDB Community. 京ICP备20022552号-5 京公网安备11010802043344号