【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.2
【复现路径】做过哪些操作出现的问题
无
【遇到的问题:问题现象及影响】
TiDB Dashboard面板-》概况-》QPS突然飙升,CPU和内存、IO均正常。经核查业务量访问量也没有异常。
请问下,像这种突然飙升一下的,可以从哪些指标去锁定原因?挺吓人的。
【资源配置】
【附件:截图/日志/监控】
去grafana上看,看看哪种类型的增加。然后再去你的业务里找找。
又学一招。想到了AWR报告。
grafana面板指标太多了,一般都看哪些类型的?
好,我操作看看。报告是怎么看的?各种指标,主要是看哪些?
能跑的程序,不敢轻意动它。
都公告了有大bug了,不建议使用,还使劲撸…
先看看最大不同项是什么
tikv, approximate_region_size 展开 Approximate Region size MAX_DIFF:-534186557.44
tikv, snapshot_info tikv_snapshot_size MAX_DIFF:53056819.00
tikv, gc_info 展开 tikv_gc_keys_total_num write,next MAX_DIFF:14660.00
tikv, cache_hit 展开 tikv_memtable_hit MAX_DIFF:-124.00
大概是这些,其他的项都相差比较小。
qps里具体显示的是哪项增高了
基本上是select
statements_summary
statements_summary_history
这2个表 查下那段时间 的SQL, 看整个集群的cluster_statements_summary_history
或者dashboard的SQL分析里选择时间范围
突增的是select的话,看看dashboard中的流量可视化,看看那一段时间内那一片区域明显高亮,然后放大。左侧能看到具体哪张表。然后针对性的去业务查。
这个怎么着也得最终去业务查询,各种监控面板都只是提供一些线索。开源版本又没有sql审计。
另外你也可以看看慢查询那里,有没有没见过的sql。
dashboard中的流量可视化那时间段时,倒是有一个高亮,就一条直线。对应的表也是日常使用可控的,数据量也不大。另外慢查询没有异常sql。
你看tidb server 的监控里网络相关的在那个时段有突增吗
嗯,按h5n1大神说的,去看看网络,如果网络也突增,那就是确实是业务侧的增加,如果没有增加,我也不知道什么情况了
实在不行翻翻tidb的日志,看看那段时间有什么sql打印出来吗。还是那句话,tidb这边看到的一切都只是结果,原因得去业务侧查。