【TiDBer 唠嗑茶话会 138】你有哪些 TiDB 故障排除经验?

一般都是dashboard+grafana+日志,针对不通的故障查询不同的页面。

先grafana、dashboard看下情况,然后就是问题服务日志和服务器系统日志,还解决不了就论坛求助了…… :joy:

1、看集群状态,有没有服务挂掉或者重启
2、看日志,主要是有看error级别日志
3、看监控,qps cpu io 内存使用等
4、看top sql 慢sql

俺也想要305课程,学习

1 个赞

先看监控,再看日志,最后上论坛,基本可以解决80%的问题。

grafana
dashboard
自研巡检
慢查询

由于我这里是机械硬盘,一般有性能问题先看磁盘使用情况,然后看慢SQL情况。再看CPU\网络流量\内存使用情况。

利用dashboard定位慢SQL

利用dashboard定位,然后看执行计划

1、定期巡检集群,根据异常进行排查
2、看监控,看错误日志
3、dashboard 看top sql,慢sql
根据具体的情况定位问题,优化修正

积极参与社区活动,就可以免费兑换

先从监控和日志入手,在看看配置是否合理等等。

除了常规监控,日志这些之外,遇到一些奇怪的问题或者故障,需要从底层一点一点排查,不过往往发现越离谱的问题答案越是简单

:fist:非常特别极其认同

自带 dashboard + Grafana overview, 再不行就看具体时间点日志

命令行:tiup 查看集群状态
面板:看pd dashboard+grafana
企业版:看tem

安装好的TIDB数据库,远程连接不上故障
1、查看TIDB相关服务是否正常;
2、服务器上是否开启防火墙,允许TIDB服务相关端口被访问;
3、服务器之外有没有需要配置网络策略。

主要还是看日志有时结合dashboard

grafana 和 dashboard 结合看,根据具体问题再去看相应的日志。

如何定位、诊断和处理 TiDB 数据库的故障
首先关注任何触发的监控警报和系统日志。与Prometheus和Grafana集成及时反映集群的健康状态,包括资源使用、错误日志等。
分析TiDB、PD和TiKV组件的日志文件。