pd dashboard慢查询卡死

liarby · 2021 年9 月 14 日 06:12

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】
【概述】使用pd的dashboard查看慢查询记录，出现页面长时间不返回结果并且TiDB节点CPU飙到100%
【背景】使用pd的dashboard查看慢查询记录
【现象】生产环境dashboard长时间不返回慢查询记录结果（就没有返回过结果），一个TiDB节点CPU飙到100%，所有在该节点执行的sql都变得奇慢（一个10W条数据的表根据主键查询一条数据的sql都需要1秒）；没有执行查询慢查询sql的TiDB节点sql执行正常（一个10W条数据的表根据主键查询一条数据的sql只需要0.01秒）；在使用kill tidb 杀掉查询慢查询记录的sql进程后，CPU仍然没有恢复正常。
【业务影响】CPU飙到100%的TiDB节点所有sql都出现较大延迟
【TiDB 版本】v4.0.8
【附件】

相关日志和监控

TiUP Cluster Display 信息
TiUP Cluster Edit Config 信息
TiDB- Overview 监控

image899×335 37.9 KB

对应模块日志（包含问题前后1小时日志）

这道题我不会 · 2021 年9 月 14 日 08:16

麻烦先看下 CPU 飙升到 100% 的 TiDB 节点的日志中有无什么报错信息，并看下慢日志中有无大的查询 SQL ，可以按照 process_keys 排序看下，类似：

from information_schema.cluster_slow_query
where is_internal = false  
  AND time >= '2021-xx-xx 20:30:00'
  AND time < '2021-xx-xx 21:00:00'
order by Process_keys desc
limit 5;

liarby · 2021 年9 月 18 日 01:10

我看了，就是这种查询长时间不返回

leeray · 2021 年9 月 18 日 05:17

慢查询的数据来源于 tidb 部署目录下的slow_query_log文件。去看一下文件有多少，每个文件大概300M。太多了了话确实很难查出来。
show variavles like ‘%slow%’ 可用查到满查询日志目录。

liarby · 2021 年10 月 29 日 07:55

我查了一下这个文件很大，进去看里面的查询，基本都是刚过300ms，不到1秒的，数据量大的话随便一个查询就会超过300ms吧，是否能把tidb_slow_log_threshold这个参数调高点，感觉300ms有点小呀

leeray · 2021 年10 月 29 日 08:14

可以，用tiup cluster edit-config 改

liarby · 2021 年10 月 29 日 09:01

谢谢了

system · 2022 年10 月 31 日 19:12

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。