【TiDBer 唠嗑茶话会 184】分享你最近一次/印象最深的运维 TiDB 时的误操作,最后是怎么解决的?

【最近一次 / 印象最深的运维 TiDB 时的误操作】
曾因操作前未二次核对文件路径,误删除了 PD 节点的核心数据文件,导致 PD 集群无法正常启动

【最后是怎么解决的】
发现问题后,第一时间暂停所有相关操作,查阅 TiDB 官方文档中关于 PD 集群重建的专项指引,严格按照文档步骤,从备份数据恢复基础配置,逐步完成 PD 节点重建、集群成员重新加入及数据一致性校验,最终恢复了 PD 集群的正常运行。

【给小伙伴们一些避坑建议吧~】

  1. 操作前必须执行 “双重校验”,尤其是涉及数据文件、核心配置的删除 / 修改操作,需确认文件路径、操作对象完全无误。
  2. 提前做好全量备份,PD 节点数据、集群配置文件需定期备份,避免突发误操作后无数据可恢复。

误删了数据表,幸好大佬说有备份

【最近一次/印象最深的运维 TiDB 时的误操作】
忘记了
【最后是怎么解决的】
好像是恢复备份
【给小伙伴们一些避坑建议吧~】
删除之前做好备份,删除之前做好备份,删除之前做好备份。重要的事情说三遍

本期唠嗑茶话会积分&经验值奖励已发放,感谢大家参与 :heart:

你这数据量不多,要是几W个region,就不是15分钟的事情了

建议用kafka做中转,下游消费,让业务自己去处理,过滤哪些操作

【最近一次/印象最深的运维 TiDB 时的误操作】
rm -rf tikv
【最后是怎么解决的】
unsafe remove-failed-stores 1
然后重新扩容
【给小伙伴们一些避坑建议吧~】
确认好环境,操作之前先备份

【最近一次/印象最深的运维 TiDB 时的误操作】
卡死了,半天没动静
【最后是怎么解决的】
等一会就好了,原因是瞬间io过大导致
【给小伙伴们一些避坑建议吧~】
做好备份,做好备份,做好备份