TiKV CPU瞬间拉满

重启试试 · 2022 年12 月 16 日 01:22

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.1
【资源配置】 32c 180G 1T SSD
【附件：截图/日志/监控】
TiKV 会突然cpu拉满，tikv的读写量从1G-2G 直接上升到7G左右，业务大量重启

同时伴随大量的慢查，又遇到相同现象的吗

重启试试 · 2022 年12 月 16 日 01:29

raftstore error 在同期也会上升

我是咖啡哥 · 2022 年12 月 16 日 01:36

dashboard看慢sql

重启试试 · 2022 年12 月 16 日 01:37

慢sql都是平时60ms-300ms的sql，出问题时就直接到10+s甚至100+s

重启试试 · 2022 年12 月 16 日 02:25

tikv日志经常出现选主失败

重启试试 · 2022 年12 月 16 日 03:01

IO util下降的时候 tikv 的MBps 却上升了，两个指标却反向的

WalterWj · 2022 年12 月 16 日 03:09

这种一般都是满 SQL 导致的，看下 tidb 日志中那段时间 expensive 的 SQL。或者去 tikv.log 中匹配 slow 关键字，看看有没有什么大的 task。看监控，网络都是 read 变高。

tidb菜鸟一只 · 2022 年12 月 16 日 03:13

这种一般都是慢sql导致的连锁反应，看看22点40左右的日志，有没有特别大的sql

裤衩儿飞上天 · 2022 年12 月 16 日 07:43

慢sql干掉，能解决80%的问题

ohammer · 2023 年1 月 8 日 09:31

业务有没新上线功能，突发的读请求很高。

DBRE · 2023 年1 月 8 日 10:02

看下慢sql，看看执行计划是否发生改变

Lucien-卢西恩 · 2023 年1 月 9 日 01:21

参考这位老师建议查询一下 expensive SQL 试试，通过提供 TiKV 的 MBps 来看，主要问题是读流量达到 GiB 级别。重点放在读请求和 Slow query 上面。
https://docs.pingcap.com/zh/tidb/v6.1/identify-slow-queries
参考一下慢查询排查文档

xingzhenxiang · 2023 年1 月 9 日 04:00

慢SQL所致，另外我实际中发现右连接性能差，可以试试改写为左连接
如果可以kill SQL 我这有个建议按照时长和内存两个维度kill，然后再分析，这样不影响生产环境对外提供服务

system · 2023 年3 月 10 日 04:01

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。