tidb访问非常慢，但看集群概况，看起来比较正常

tidb_bruce · 2022 年5 月 25 日 07:09

【 TiDB 使用环境`】生产环境
【 TiDB 版本】5.2.1
【遇到的问题】tidb访问非常慢，但看集群概况，看起来比较正常
【复现路径】上午访问非常慢，然后关闭应用后重启了整了tidb集群，还是访问非常慢，排除慢查询的问题
【问题现象及影响】
当前延迟时间很长，一般都是几十毫秒的，但现在都是1秒以上
截图如下：

同时我们这边进行了集群诊断，截图如下：

发现一个异常：

【附件】

请提供各个组件的 version 信息，如 cdc/tikv，可通过执行 cdc version/tikv-server --version 获取。

Min_Chen · 2022 年5 月 25 日 07:30

麻烦导出一下 grafana 监控数据，通过工具 https://metricstool.pingcap.com/#backup-with-dev-tools
需要导出的面板：TiKV Detail、Overview、PD、TiDB、Disk Performance

Lucien-卢西恩 · 2022 年5 月 25 日 07:32

另外可以尝试使用【SOP 系列 22】TiDB 集群诊断信息收集 Clinic 使用指南&资料大全讲日志、监控、拓扑一并收集上来，有助于我们帮忙分析。谢谢。

tidb_bruce · 2022 年5 月 25 日 07:41

b2b-TiKV-Details_2022-05-25T07_37_49.292Z.json (12.8 MB)

grafana的日志已经上传，麻烦再看一下

tidb_bruce · 2022 年5 月 25 日 07:46

disk -performerce:b2b-Disk-Performance_2022-05-25T07_44_32.361Z.json (432.8 KB)
pd:b2b-PD_2022-05-25T07_43_03.167Z.json (153.1 KB)
overview:b2b-Overview_2022-05-25T07_43_25.288Z.json (1.1 MB)
Disk-Performance:b2b-Disk-Performance_2022-05-25T07_44_32.902Z.json (432.8 KB)

Min_Chen · 2022 年5 月 25 日 07:58

PD 的监控请选到 leader 后导出，否则无数据。
另外通过 Clinic 收集一下集群信息，辅助排查。

tidb_bruce · 2022 年5 月 25 日 08:01

那应该是这个：b2b-PD_2022-05-25T08_00_32.265Z.json (184.1 KB)
你再看看

tidb_bruce · 2022 年5 月 25 日 08:05

这个晚一点我们再提供，现在正在装工具

Min_Chen · 2022 年5 月 25 日 08:06

57 58 的 disk performance 和 TiDB 提供一下

tidb_bruce · 2022 年5 月 25 日 08:11

57的disk:b2b-Disk-Performance_2022-05-25T08_09_02.043Z.json (19.2 KB)
58的disk:b2b-Disk-Performance_2022-05-25T08_09_19.230Z.json (215.5 KB)
tidb:b2b-TiDB_2022-05-25T08_10_12.519Z.json (2.6 MB)

Min_Chen · 2022 年5 月 25 日 08:38

初步查看监控，集群不慢，只有 .99 的 sql 比较慢达到 4~8s，麻烦提供慢查询日志，来进一步排查。

tidb_bruce · 2022 年5 月 25 日 08:44

慢日志SQL：slowquery_0525161308_0525164308_447119251.csv (29.7 MB)
感谢感谢

tidb_bruce · 2022 年5 月 25 日 08:45

看起来都是写入操作，特别慢，平时都是毫秒级，现在要几十秒

tidb_bruce · 2022 年5 月 25 日 08:53

一个写入SQL，需要40多秒，但你们这边步骤没太看清楚：

id task estRows operator info actRows execution info memory disk Insert_1 root 0 N/A 0 time:43.4s, loops:1, prepare:43.4s, insert:108.6µs, lock_keys: {time:3.31ms, region:1, keys:1, lock_rpc:3.214014ms, rpc_count:1} 398 Bytes N/A
主要时间花在prepare了

tidb_bruce · 2022 年5 月 25 日 09:02

现在整个QPS才十几个

tidb_bruce · 2022 年5 月 25 日 09:48

问题已经解决了，原因是一个SQL里面的in有几十万的数量，导致整个集群出问题。关键这个SQL一直在执行，集群重启还自动恢复执行，在慢日志里面还慢不到。

这个看能不能加某些机制，来避免这种问题发生。

tidb_bruce · 2022 年5 月 25 日 10:00

文件在这里：https://clinic.pingcap.com.cn/portal/#/orgs/120/clusters/7009174823259873762

Min_Chen · 2022 年5 月 25 日 11:52

收到，我们内部看一下。

fanruinet · 2022 年5 月 25 日 16:26

慢查询只显示已经执行完毕的，正在执行的查询可以通过show processlist来查看：
SHOW FULL PROCESSLIST | PingCAP Docs
必要时可以kill：
KILL TIDB | PingCAP Docs

哈喽沃德 · 2022 年5 月 26 日 01:21

确认一下是否有跑批作业，另外就是网络监控一下。