Dashboard导出慢查引发内存暴涨触发OOM

TiDB_C罗 · 2023 年7 月 21 日 08:36

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】在Dashboard上操作导出最近30分慢查触发OOM
【遇到的问题：问题现象及影响】
由于Dashboard中的慢查询功能只能一个一个的打开，所以就导出到本地，一个一个的优化。
选择了时间段，最近30分钟，导出没有反应。

查看监控

其中两台发生了OOM，幸好还剩一台

查看其中一台OOM的实例

The 10 SQLs with the most time usage for OOM analysis
SQL 0:
cost_time: 1.376497381s
conn_id: 206183
user: dashboard_user
table_ids: [4611686018427387951]
txn_start_ts: 443004339273596931
mem_max: 25276 Bytes (24.7 KB)
sql: SELECT Digest, Query, INSTANCE, DB, Conn_ID, Succ, (UNIX_TIMESTAMP(Time) + 0E0) AS timestamp, Query_time, Parse_time, Compile_time, Rewrite_time, Preproc_subqueries_time, Optimize_time, Wait_TS, Cop_time, LockKeys_time, Write_sql_response_total, Exec_retry_time, Mem_max, Disk_max, Txn_start_ts, Prev_stmt, Plan, Is_internal, Index_names, Stats, Backoff_types, User, Host, Process_time, Wait_time, Backoff_time, Get_commit_ts_time, Local_latch_wait_time, Resolve_lock_time, Prewrite_time, Wait_prewrite_binlog_time, Commit_time, Commit_backoff_time, Cop_proc_avg, Cop_proc_p90, Cop_proc_max, Cop_wait_avg, Cop_wait_p90, Cop_wait_max, Write_keys, Write_size, Prewrite_region, Txn_retry, Request_count, Process_keys, Total_keys, Cop_proc_addr, Cop_wait_addr, Rocksdb_delete_skipped_count, Rocksdb_key_skipped_count, Rocksdb_block_cache_hit_count, Rocksdb_block_read_count, Rocksdb_block_read_byte FROM `INFORMATION_SCHEMA`.`CLUSTER_SLOW_QUERY` WHERE Time BETWEEN FROM_UNIXTIME(?) AND FROM_UNIXTIME(?) ORDER BY Query_time DESC LIMIT 100

~

为什么这个查询危害那么大？

tidb狂热爱好者 · 2023 年7 月 21 日 08:38

正常数据量多

tidb狂热爱好者 · 2023 年7 月 21 日 08:39

我都select limit 1导出

MrSylar · 2023 年7 月 21 日 08:40

目前不建议用的使用姿势

像风一样的男子 · 2023 年7 月 21 日 08:41

你可以去数据库找 INFORMATION_SCHEMA.CLUSTER_SLOW_QUERY这张表导出慢查询会存在这里

h5n1 · 2023 年7 月 21 日 08:43

你这个版本已经修复这个bug了，降低时间范围再看看内，要是很低时间范围内还有问题估计是有bug

裤衩儿飞上天 · 2023 年7 月 21 日 08:44

慢日志可以移除一些老的不用的，就快了
是每个tidb节点都要移走

TiDB_C罗 · 2023 年7 月 21 日 08:45

我正是这个5.4.0版本，上面版本选错了。

h5n1 · 2023 年7 月 21 日 08:46

那升级吧

TiDB_C罗 · 2023 年7 月 21 日 08:46

这个表INFORMATION_SCHEMA.CLUSTER_SLOW_QUERY和tidb本地的慢查文件是什么关系，是谁先生成谁

tidb狂热爱好者 · 2023 年7 月 21 日 08:48

你看这篇我写的文章里面有专门慢sql导出的
间隔要短因为你故障的时候sql 是几个亿的慢sql 执行卡住是常有的事情

裤衩儿飞上天 · 2023 年7 月 21 日 08:48

像风一样的男子 · 2023 年7 月 21 日 08:51

建议定期归档下tidb下的slow.log

system · 2023 年9 月 19 日 08:51

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。