TiKV CPU瞬间拉满

【 TiDB 使用环境】生产环境
【 TiDB 版本】5.4.1
【资源配置】 32c 180G 1T SSD
【附件:截图/日志/监控】
TiKV 会突然cpu拉满,tikv的读写量从1G-2G 直接上升到7G左右,业务大量重启

同时伴随大量的慢查,又遇到相同现象的吗


raftstore error 在同期也会上升

dashboard看慢sql

慢sql都是平时60ms-300ms的sql,出问题时就直接到10+s甚至100+s

tikv日志经常出现选主失败

IO util下降的时候 tikv 的MBps 却上升了,两个指标却反向的

这种一般都是满 SQL 导致的,看下 tidb 日志中那段时间 expensive 的 SQL。或者去 tikv.log 中匹配 slow 关键字,看看有没有什么大的 task。看监控,网络都是 read 变高。

这种一般都是慢sql导致的连锁反应,看看22点40左右的日志,有没有特别大的sql

慢sql干掉,能解决80%的问题

业务有没新上线功能,突发的读请求很高。

看下慢sql,看看执行计划是否发生改变

参考这位老师建议查询一下 expensive SQL 试试,通过提供 TiKV 的 MBps 来看,主要问题是读流量达到 GiB 级别。重点放在读请求和 Slow query 上面。
https://docs.pingcap.com/zh/tidb/v6.1/identify-slow-queries
参考一下慢查询排查文档

慢SQL所致,另外我实际中发现右连接性能差,可以试试改写为左连接
如果可以kill SQL 我这有个建议按照时长和内存两个维度kill,然后再分析,这样不影响生产环境对外提供服务