【TiDBer 唠嗑茶话会 184】分享你最近一次/印象最深的运维 TiDB 时的误操作，最后是怎么解决的？

zhihui · 2025 年10 月 13 日 06:04

【最近一次/印象最深的运维 TiDB 时的误操作】业务高峰期往同步到下游mysql数据库的大表添加索引，造成同步表有三小时的延时同步，相关报表业务全错

【最后是怎么解决的】实时监控，查看数据是不是还在同步，防止下游堆积过多同步宕机

【给小伙伴们一些避坑建议吧～】执行索引之前看表大小，执行时避开出报表时机，提前预估执行时间，给下游数据使用侧打预防针

JayJay · 2025 年10 月 13 日 06:26

【最近一次/印象最深的运维 TiDB 时的误操作】
当年测试的时候，给执行错命令，linux里给chmod -R 777 /,搞得权限不对啦

【最后是怎么解决的】
克隆其他机器，重新安装

【给小伙伴们一些避坑建议吧～】
慎用高权限用户

danghuagood · 2025 年10 月 13 日 08:24

把tiup的隐藏目录.tiup目录给删除了
最后是从其他相同版本的环境给构建出来

白里登风 · 2025 年10 月 13 日 09:21

【最近一次/印象最深的运维 TiDB 时的误操作】
个人测试使用失误，误删数据
【最后是怎么解决的】
备份还原啦
【给小伙伴们一些避坑建议吧～】
操作需谨慎，记得备份

opkcloud · 2025 年10 月 13 日 09:32

【最近一次/印象最深的运维 TiDB 时的误操作】
误删除部分联表数据
【最后是怎么解决的】
备份数据进行恢复
【给小伙伴们一些避坑建议吧～】
定时备份很重要，留一手

舞动梦灵 · 2025 年10 月 13 日 09:43

批量删除数据的时候脚本没写好，放在了crontab里面结果大面积堵塞延迟。
立马把脚本停了，然后进程里面一直kill kill kill
删除脚本先小量测试，最后在大批量执行。

Hacker007 · 2025 年10 月 14 日 01:13

记忆中没啥，以其事后补救还不如事前谨慎一些

TiDBer_1dKrZYMk · 2025 年10 月 14 日 02:08

印象最深的TiDB误操作：误删PD节点导致集群短暂不可用

事件经过：
执行PD缩容时，误将最后一个PD节点下线（未保留旧节点），导致TiKV无法访问PD获取元信息，集群查询超时，业务请求失败约10分钟。

原因：
未遵循“缩容PD时保留至少一个旧节点”的规范，且未检查TiKV缓存的PD列表状态。

恢复：
紧急重启PD服务并手动指定新Leader，恢复后升级集群版本启用自动PD节点更新机制。

教训：
操作前必须核对节点状态，缩容需分步验证，避免集中下线关键组件。

AN_12 · 2025 年10 月 14 日 03:30

突然这么一问，忘记了

zhimadi · 2025 年10 月 14 日 05:44

【最近一次/印象最深的运维 TiDB 时的误操作】
高峰时段扩缩容多台KV，集群拥堵的时候reload重启
【最后是怎么解决的】
等待消化
【给小伙伴们一些避坑建议吧～】
千万不要做以上错误操作- -！

TiDBer_Y9fpYIno · 2025 年10 月 14 日 06:42

【最近一次/印象最深的运维 TiDB 时的误操作】
由于安装了操作系统的一个桌面组件，把内核改了，导致系统重启登陆不上
【最后是怎么解决的】
通过扩容的方式重新搭建了一个节点
【给小伙伴们一些避坑建议吧～】
谨慎谨慎再谨慎

TiDBer_Kylin · 2025 年10 月 14 日 09:22

【最近一次/印象最深的运维 TiDB 时的误操作】
最近一次不是误操作，而是主控云服务器丢失，导致 TiDB 集群无法通过 TiUP 运维
【最后是怎么解决的】
最后是记得几个月以前备份过 TiUP 元数据文件，通过手动处理一些文件配置，重新将集群接入到 TiUP 管理
【给小伙伴们一些避坑建议吧～】
备份很重要

evanyou26 · 2025 年10 月 14 日 11:55

【最近一次/印象最深的运维 TiDB 时的误操作】
与其他服务共享的主机资源，导致性能不足引起tidb响应缓慢
【最后是怎么解决的】
将其他服务迁移出去
【给小伙伴们一些避坑建议吧～】
数据库服务独立服务器运行，配备足够的资源

TiDBer_小杰 · 2025 年10 月 14 日 13:01

【最近一次/印象最深的运维 TiDB 时的误操作】
误删库
【最后是怎么解决的】
参考官方文档进行数据恢复
【给小伙伴们一些避坑建议吧～】
一定要谨慎操作

yulei7633 · 2025 年10 月 15 日 01:28

config.yaml中使用了默认配置文件

应该进行实际调整，同时修改前备份文件

哈喽沃德 · 2025 年10 月 15 日 06:03

最近一次/印象最深的运维 TiDB 时的误操作】

在一次业务高峰期，我需要为一个大表添加索引来优化查询性能。由于时间紧迫，我直接在生产环境执行了 CREATE INDEX语句，没有充分评估影响。结果这个 DDL 操作导致了 TiKV 节点 CPU 使用率飙升，大量慢查询涌现，业务响应时间明显变慢。

【最后是怎么解决的】

紧急干预：首先使用 ADMIN CANCEL DDL JOBS <job_id>取消了正在进行的索引创建任务

流量降级：临时与业务方沟通，降低了部分非核心业务的写入流量

择机重做：在业务低峰期（凌晨2点）重新执行索引创建，并使用了 ALGORITHM=INPLACE参数减少锁表时间

监控恢复：密切观察 TiDB Dashboard 和 Grafana 监控指标，确保集群性能恢复正常

【给小伙伴们一些避坑建议吧~】

避开高峰：DDL 操作一定要选择业务低峰期进行，提前与业务团队协调时间窗口

测试先行：在测试环境先验证大表 DDL 操作的影响和耗时

使用工具：考虑使用 TiDB 的在线 DDL 相关工具或分批次执行策略

监控预警：操作前设置好告警阈值，操作期间实时关注集群关键指标

备份预案：重要变更前做好数据备份和回滚预案

这次经历让我深刻体会到，即使是 TiDB 支持在线 DDL，对于大数据量的表操作仍需谨慎规划，做好充分准备才能确保业务稳定性。

符合活动要求的参与格式，期待与各位 TiDBer 交流更多运维经验！

kang · 2025 年10 月 15 日 13:48

我的错误简单 IP地址少打了一位整个tikv都清了。。。

Ti_Ddh · 2025 年10 月 16 日 02:21

【最近一次/印象最深的运维 TiDB 时的误操作】
update错数据
【最后是怎么解决的】
使用备份数据回滚
【给小伙伴们一些避坑建议吧～】
操作一定要记得备份

沧海一声笑 · 2025 年10 月 16 日 03:07

误删除数据
【最后是怎么解决的】
使用恢复命令将误删除的数据进行恢复
【给小伙伴们一些避坑建议吧～】
备份（数据和配置文件）；两人操作，相互监督

Denis · 2025 年10 月 16 日 03:09

目前没有，运维要胆大心细，敬畏生产