TiDB集群的统计信息没消失,导致查询缓慢

【TiDB 版本】
v4.0.4

【问题描述】
线上集群,突然16:00SQL响应变慢,业务收到影响,发现表的统计信息全部消失,重启集群,恢复正常。



[grafana监控图表和节点日志]
链接: 百度网盘-链接不存在 密码: se6l

麻烦大佬们帮忙分析下,慢SQL理解,但是统计信息怎么突然没有了

1、当前的集群 gc 是怎样的?是否允许执行下面的语句:
1)set @@tidb_snapshot="xxxx"; — 出现问题前的时间点
2) select * from mysql.stats_meta

2、TiDB grafana 导出问题时间 15:00 ~ 17:00 的 dashboard 监控信息

3、TiDB grafana 中 statistics — Auto Analyze Duration 95 面板 by instance ,看下是哪台 tidb server 上报的信息,然后将该 tidb server 15:00 ~ 17:00 的 log 和 stderr log 收集并上传~

链接: 百度网盘-链接不存在 密码: 15dd
这是snapshot信息和grafana图
另外问题下
image
是这个监控指标吗 如何确定是那台tidb_server

链接: https://pan.baidu.com/s/1GTYDAVB4x6O1bikjfcQ3Aw 密码: d18b
这个是3台tidb节点的全部15:00-17:00 的tidb.log和stderr log

辛苦把同时间段的 TiKV-Details grafana 导出下,以及 tiup cluster list 看下这个集群的拓扑~

另外,把下面的 tidb server 的 node-exporter 监控信息导出下:

集群拓扑

grafana监控
saos-htap-tidb-cluster-prod-TiKV-Details_2021-05-25T09_37_25.974Z.json (7.4 MB)

84:node-exporter
Tidb-Cluster-Node_exporter_2021-05-25T09_42_29.267Z.json (1.1 MB)

辛苦了

收到,这边看下,有消息会跟帖回复哈 ~