【TiDBer 唠嗑茶话会 138】你有哪些 TiDB 故障排除经验？

Hacker007 · 2024 年10 月 12 日 01:19

看各种指标，异常sql，日志进行分析

Soysauce520 · 2024 年10 月 12 日 02:47

找到对应cpu高的top sql，基本可以覆盖95%以上的场景。

jiayou64 · 2024 年10 月 12 日 02:47

看看积分，兑现下

随缘天空 · 2024 年10 月 12 日 03:48

一般都是dashboard，查看慢日志，流量可视化菜单以及集群资源的使用情况(cpu、磁盘等)

Jellybean · 2024 年10 月 12 日 04:49

先分析grafana ，
再分析dashboard，
详细分析grafana，
继续分析数据库日志+系统日志，
社区，
官网，
专家大佬，
表妹！

zhaokede · 2024 年10 月 12 日 05:01

先看dashboard，再看后台日志

小龙虾爱大龙虾 · 2024 年10 月 12 日 05:16

定位热点问题 sql，使用 top sql功能

舞动梦灵 · 2024 年10 月 12 日 05:44

DM2.0 同步mysql5.6到Tidb4.0.2 升级DM到5.3版本，然后报错提示主键冲突，根据提示的语句和主键值去Tidb检查，发现无异常，最后去官网搜索相关问题，发现是一个BUG，直接执行resume-task 就可以恢复。然后写了一个脚本，每分钟检查是否有PRI报错关键字，如果有自动执行resume

小小阿狸 · 2024 年10 月 12 日 08:01

使用 ping 或 traceroute 工具检查网络延迟和丢包情况。

wluckdog · 2024 年10 月 12 日 08:26

先看dashboard，是否有慢SQL引起，然后看监控通过网络，cpu、io等监控情况排查问题

zhimadi · 2024 年10 月 12 日 08:27

其实我是进来学习的。我的话，一般都是dashboard+grafana，最后才看日志

paulli · 2024 年10 月 12 日 08:43

performance面板集群运行效应一目了然

没头脑123 · 2024 年10 月 12 日 09:34

1、看故障发生的组件，缩小排查范围
2、看日志，故障发生时各日志情况
3、看监控，qps cpu io 内存使用，当时机器状态、进程状态
4、看top sql 慢sql、异常SQL。
5、故障复现
总体来讲，就是监控、日志、SQL、现场

隔壁老帆 · 2024 年10 月 12 日 13:06

一般都是dashboard+grafana+日志，针对不通的故障查询不同的页面。

TiDBer_wHJmjTiw · 2024 年10 月 13 日 00:01

从监控和日志入手，逐步排查

YuchongXU · 2024 年10 月 13 日 00:50

sql性能变差

TiDBer_mrwtjR8B · 2024 年10 月 13 日 02:49

grafana+dashboard

草木小白 · 2024 年10 月 13 日 06:03

grafana dashboard ，搞不定就继续日志

昵称想不起来了 · 2024 年10 月 13 日 23:27

看Grafana的overview和dashboard
慢查询sql
日志expensive关键词

shuhan5679 · 2024 年10 月 13 日 23:38

碰到过TIDB SERVER 停止响应的情况，时间紧急，最快的恢复方法是重启操作系统，再启动TIDB SERVER
部署HAProxy 解决某台TIDB SERVER故障时，不可用的问题