一般都是dashboard+grafana+日志,针对不通的故障查询不同的页面。
先grafana、dashboard看下情况,然后就是问题服务日志和服务器系统日志,还解决不了就论坛求助了……
1、看集群状态,有没有服务挂掉或者重启
2、看日志,主要是有看error级别日志
3、看监控,qps cpu io 内存使用等
4、看top sql 慢sql
俺也想要305课程,学习
先看监控,再看日志,最后上论坛,基本可以解决80%的问题。
grafana
dashboard
自研巡检
慢查询
由于我这里是机械硬盘,一般有性能问题先看磁盘使用情况,然后看慢SQL情况。再看CPU\网络流量\内存使用情况。
利用dashboard定位慢SQL
利用dashboard定位,然后看执行计划
1、定期巡检集群,根据异常进行排查
2、看监控,看错误日志
3、dashboard 看top sql,慢sql
根据具体的情况定位问题,优化修正
积极参与社区活动,就可以免费兑换
先从监控和日志入手,在看看配置是否合理等等。
除了常规监控,日志这些之外,遇到一些奇怪的问题或者故障,需要从底层一点一点排查,不过往往发现越离谱的问题答案越是简单
非常特别极其认同
自带 dashboard + Grafana overview, 再不行就看具体时间点日志
命令行:tiup 查看集群状态
面板:看pd dashboard+grafana
企业版:看tem
安装好的TIDB数据库,远程连接不上故障
1、查看TIDB相关服务是否正常;
2、服务器上是否开启防火墙,允许TIDB服务相关端口被访问;
3、服务器之外有没有需要配置网络策略。
主要还是看日志有时结合dashboard
grafana 和 dashboard 结合看,根据具体问题再去看相应的日志。
如何定位、诊断和处理 TiDB 数据库的故障
首先关注任何触发的监控警报和系统日志。与Prometheus和Grafana集成及时反映集群的健康状态,包括资源使用、错误日志等。
分析TiDB、PD和TiKV组件的日志文件。