TiDB Dashboard面板-》概况-》QPS突然飙升,CPU和内存、IO均正常

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.2
【复现路径】做过哪些操作出现的问题

【遇到的问题:问题现象及影响】
TiDB Dashboard面板-》概况-》QPS突然飙升,CPU和内存、IO均正常。经核查业务量访问量也没有异常。
请问下,像这种突然飙升一下的,可以从哪些指标去锁定原因?挺吓人的。
【资源配置】
【附件:截图/日志/监控】

去grafana上看,看看哪种类型的增加。然后再去你的业务里找找。

https://docs.pingcap.com/zh/tidb/v5.3/dashboard-diagnostics-access#生成对比诊断报告
和正常时段生成一份对比诊断报告看看

1 个赞


升级~~~ 先升级再说

又学一招。想到了AWR报告。

grafana面板指标太多了,一般都看哪些类型的?

好,我操作看看。报告是怎么看的?各种指标,主要是看哪些?

能跑的程序,不敢轻意动它。 :rofl:

都公告了有大bug了,不建议使用,还使劲撸…

先看看最大不同项是什么

tikv, approximate_region_size 展开 Approximate Region size MAX_DIFF:-534186557.44
tikv, snapshot_info tikv_snapshot_size MAX_DIFF:53056819.00
tikv, gc_info 展开 tikv_gc_keys_total_num write,next MAX_DIFF:14660.00
tikv, cache_hit 展开 tikv_memtable_hit MAX_DIFF:-124.00
大概是这些,其他的项都相差比较小。

qps里具体显示的是哪项增高了

基本上是select

statements_summary statements_summary_history 这2个表 查下那段时间 的SQL, 看整个集群的cluster_statements_summary_history

或者dashboard的SQL分析里选择时间范围

这些看起来没什么异样。

突增的是select的话,看看dashboard中的流量可视化,看看那一段时间内那一片区域明显高亮,然后放大。左侧能看到具体哪张表。然后针对性的去业务查。
这个怎么着也得最终去业务查询,各种监控面板都只是提供一些线索。开源版本又没有sql审计。
另外你也可以看看慢查询那里,有没有没见过的sql。

dashboard中的流量可视化那时间段时,倒是有一个高亮,就一条直线。对应的表也是日常使用可控的,数据量也不大。另外慢查询没有异常sql。

你看tidb server 的监控里网络相关的在那个时段有突增吗

嗯,按h5n1大神说的,去看看网络,如果网络也突增,那就是确实是业务侧的增加,如果没有增加,我也不知道什么情况了 :man_shrugging:
实在不行翻翻tidb的日志,看看那段时间有什么sql打印出来吗。还是那句话,tidb这边看到的一切都只是结果,原因得去业务侧查。

貌似也没有。你看看图: