pd dashboard慢查询卡死

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
【概述】使用pd的dashboard查看慢查询记录,出现页面长时间不返回结果并且TiDB节点CPU飙到100%
【背景】使用pd的dashboard查看慢查询记录
【现象】生产环境dashboard长时间不返回慢查询记录结果(就没有返回过结果),一个TiDB节点CPU飙到100%,所有在该节点执行的sql都变得奇慢(一个10W条数据的表根据主键查询一条数据的sql都需要1秒);没有执行查询慢查询sql的TiDB节点sql执行正常(一个10W条数据的表根据主键查询一条数据的sql只需要0.01秒);在使用kill tidb 杀掉查询慢查询记录的sql进程后,CPU仍然没有恢复正常。
【业务影响】CPU飙到100%的TiDB节点所有sql都出现较大延迟
【TiDB 版本】v4.0.8
【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

麻烦先看下 CPU 飙升到 100% 的 TiDB 节点的日志中有无什么报错信息,并看下慢日志中有无大的查询 SQL ,可以按照 process_keys 排序看下,类似:

from information_schema.cluster_slow_query
where is_internal = false  
  AND time >= '2021-xx-xx 20:30:00'
  AND time < '2021-xx-xx 21:00:00'
order by Process_keys desc
limit 5;

我看了,就是这种查询长时间不返回

慢查询的数据来源于 tidb 部署目录下的slow_query_log文件。去看一下文件有多少,每个文件大概300M。太多了了话确实很难查出来。
show variavles like ‘%slow%’ 可用查到满查询日志目录。

我查了一下这个文件很大,进去看里面的查询,基本都是刚过300ms,不到1秒的,数据量大的话随便一个查询就会超过300ms吧,是否能把tidb_slow_log_threshold这个参数调高点,感觉300ms有点小呀

可以,用tiup cluster edit-config 改

谢谢了

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。