Dashboard导出慢查引发内存暴涨触发OOM

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】在Dashboard上操作导出最近30分慢查触发OOM
【遇到的问题:问题现象及影响】
由于Dashboard中的慢查询功能只能一个一个的打开,所以就导出到本地,一个一个的优化。
选择了时间段,最近30分钟,导出没有反应。

查看监控




其中两台发生了OOM,幸好还剩一台

查看其中一台OOM的实例

The 10 SQLs with the most time usage for OOM analysis
SQL 0:
cost_time: 1.376497381s
conn_id: 206183
user: dashboard_user
table_ids: [4611686018427387951]
txn_start_ts: 443004339273596931
mem_max: 25276 Bytes (24.7 KB)
sql: SELECT Digest, Query, INSTANCE, DB, Conn_ID, Succ, (UNIX_TIMESTAMP(Time) + 0E0) AS timestamp, Query_time, Parse_time, Compile_time, Rewrite_time, Preproc_subqueries_time, Optimize_time, Wait_TS, Cop_time, LockKeys_time, Write_sql_response_total, Exec_retry_time, Mem_max, Disk_max, Txn_start_ts, Prev_stmt, Plan, Is_internal, Index_names, Stats, Backoff_types, User, Host, Process_time, Wait_time, Backoff_time, Get_commit_ts_time, Local_latch_wait_time, Resolve_lock_time, Prewrite_time, Wait_prewrite_binlog_time, Commit_time, Commit_backoff_time, Cop_proc_avg, Cop_proc_p90, Cop_proc_max, Cop_wait_avg, Cop_wait_p90, Cop_wait_max, Write_keys, Write_size, Prewrite_region, Txn_retry, Request_count, Process_keys, Total_keys, Cop_proc_addr, Cop_wait_addr, Rocksdb_delete_skipped_count, Rocksdb_key_skipped_count, Rocksdb_block_cache_hit_count, Rocksdb_block_read_count, Rocksdb_block_read_byte FROM `INFORMATION_SCHEMA`.`CLUSTER_SLOW_QUERY` WHERE Time BETWEEN FROM_UNIXTIME(?) AND FROM_UNIXTIME(?) ORDER BY Query_time DESC LIMIT 100

~

为什么这个查询危害那么大?

正常 数据量多

我都select limit 1导出

目前不建议用的使用姿势

你可以去数据库找 INFORMATION_SCHEMA.CLUSTER_SLOW_QUERY这张表导出 慢查询会存在这里


你这个版本已经修复这个bug了,降低时间范围再看看内,要是很低时间范围内还有问题估计是有bug

慢日志可以移除一些老的不用的,就快了
是每个tidb节点都要移走

我正是这个5.4.0版本,上面版本选错了。

那升级吧

这个表INFORMATION_SCHEMA.CLUSTER_SLOW_QUERY和tidb本地的慢查文件是什么关系,是谁先生成谁

你看这篇我写的文章 里面有专门慢sql导出的
间隔要短因为你故障的时候sql 是几个亿的慢sql 执行卡住是常有的事情

建议定期归档下tidb下的slow.log

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。