【TiDBer 唠嗑茶话会 138】你有哪些 TiDB 故障排除经验？

wfxxh · 2024 年10 月 14 日 00:23

1.检查集群整体状态
2.查看慢查询情况
3.查看集群io流量
4.查日志

像风一样的男子 · 2024 年10 月 14 日 00:50

故障现象不一样，调查问题的角度也会不一样。
1.检查集群整体状态
2.检查集群服务器资源使用情况
3.通过dashboard和granafa查看各种对应指标
4.查日志

TiDBer_刚 · 2024 年10 月 14 日 01:05

看看Grafana的overview和dashboard，如果某个有问题再具体看对应的日志

kelvin · 2024 年10 月 14 日 01:07

看dashboard，是否有慢SQL引起，然后看监控通过网络，cpu、io等监控情况排查问题

liuis · 2024 年10 月 14 日 01:59

我们集群是用k8s部署的，日志什么的都有采集很齐全，其它手段就是结合grafana面板进行查看了，日志+指标基本能定位到问题

柴米油酱 · 2024 年10 月 14 日 02:33

先看dashboard，再看grafana，最后在具体分析

TiDBer_jYQINSnf · 2024 年10 月 14 日 02:37

最近遇到比较多的问题是：
业务方问：我的ｓｑｌ怎么突然那么慢了？

查看ｇｒａｆａｎａ，ｔｉｋｖ的扫描多一些，就是ｇｒｐｃ那个面板，看过去同一时间的对比，发现扫描多一些，那就慢了。扫描主要是：coprocessor请求。

这种情况就和业务方确认，是不是有上线，有ｓｑｌ变化？
如果没有的话，看看慢的ｓｑｌ的执行计划是不是选错了，比如说表的健康度变低导致的。
然后绑定执行计划，完成！

孙晨航11 · 2024 年10 月 14 日 02:46

主要就看grafana和dashboard

danghuagood · 2024 年10 月 14 日 02:51

1、现在操作系统和硬件方面的日志
2、接着看各个组件的日志
3、dashboard

come_true · 2024 年10 月 14 日 06:44

茶话会专业性越来越强了

xingzhenxiang · 2024 年10 月 14 日 07:00

我一般看zabbix告警，内存高了重启tidb节点，SQL执行时间长了保存SQL并kill掉，然后分析

TiDBer_7TiqWnN9 · 2024 年10 月 14 日 07:24

分析慢查询日志：TiDB 提供了慢查询日志，可以通过查看慢查询日志来确定哪些查询执行时间较长。分析这些查询，看是否可以通过优化 SQL 语句、添加索引等方式提高查询性能。
检查资源使用情况：观察 TiDB 服务器的 CPU、内存、磁盘 I/O 等资源使用情况。如果某个资源使用率过高，可能会导致性能下降。可以使用系统监控工具（如 top、iostat 等）来检查资源使用情况。
检查 TiDB 配置参数：一些 TiDB 的配置参数可能会影响性能，如内存限制、并发连接数等。根据实际情况调整这些参数，以提高性能。

TiDB_M · 2024 年10 月 14 日 08:19

我精通DM故障恢复

TiDBer_GMrExvHp · 2024 年10 月 14 日 08:21

我精通TICDC故障恢复

kkpeter · 2024 年10 月 14 日 09:17

TiDB慢查询，执行计划错误

MrSylar · 2024 年10 月 14 日 09:24

目前处理的核心的思想第一步是缩小故障排查范围，确定导致问题的第一责任组件。第二是查看责任组件的日志，分析故障时刻的日志。一般到这里就差不多了。对于分析日志无法定位的问题，优先 ASKTUG、其实尝试理解代码。实际中大不数问题都是重复的，例如SQL 执行oom、应用到数据库链接断开等等

TIDB-Learner · 2024 年10 月 14 日 10:09

跟着表象，深入分析。
查看日志和监控。

Fly-bird · 2024 年10 月 15 日 00:04

硬件故障算不算

mytidb · 2024 年10 月 15 日 01:15

第一步：排除系统问题引发的数据库问题第二步：通过可视化监控平台和面板检查集群是否存在性能瓶颈和慢sql 第三步：查看tidb 三大组件的运行日志，检查是否有其他警告和错误异常，最后：求助社区和tidb 相关人员

yulei7633 · 2024 年10 月 15 日 01:29

dashboard监控