新旧机房TIDB集群

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
线上v5.3 TIDB集群(3tidb,3pd,5tikv,3tiflash)因为机房迁移,需要迁移到另外一个机房。新旧机房内网打通的,关于tidb集群迁移咨询问题如下:
1、通过tiup 扩容新机房对应的节点信息(3tidb,3pd,5tikv,3tiflash)
2、通过监控查看tikv数据均衡以后,我们下线旧机房的所有节点
3、请问tiup 的配置如何迁移?还有哪些点需要注意的?

【附件】

  • 相关日志、配置文件、Grafana 监控(https://metricstool.pingcap.com/)
  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息
  • TiDB-Overview 监控
  • 对应模块的 Grafana 监控(如有 BR、TiDB-binlog、TiCDC 等)
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

tiup的迁移参考这里
https://docs.pingcap.com/zh/tidb/stable/tiup-cluster#迁移中控机与备份
机房迁移可以参考下贝壳金服的,虽然版本比较老了,但是有一定的参考价值

2 个赞

主要是pd和tikv的下线操作需要注意

  1. pd最好是手动将leader切换至新集群之后在下线。
  2. tikv下线需逐个下线以免造成数据副本问题,最好先驱逐leader至其他节点。不要使用 --force
1 个赞

以下仅供参考
1、(tikv)先驱逐旧集群tikv中的leader
2、(pd)pd的leader切换为新集群,尝试下线旧集群的pd,中控机部署在新集群上
测试 dashboard是否正常
3、(tikv)逐个下线旧集群的tikv节点
4、(tiflash)下线旧tiflash1个副本,上线新tiflash1个副本;旧的tiflash全部下线, 新增新的tifalsh到预期个数。
5、下线旧集群的其他监控节点

注意:
1)避免业务高峰
2)迁移前的数据量记录备案,评估数据量和时间,做好迁移评估,以便正常迁移和数据抽样比对。

2 个赞

这个的确有帮助

2 个赞

根据以上提供资料,我tidb,pd,tikv,tiflash 都已迁移到新机房了。刚发现alertmanager,grafana,prometheus 还没迁移,还是部署在旧机房,请问这3个组件如何迁移?

1 个赞

就别迁移了,直接部署一套新的,比较快。历史数据如果需要做分析和回顾,可以将 promethues 里面的数据导入到新的 prometheus 里面。具体操作 asktug 也有一篇文档可以参考一下。【SOP 系列 02】 Prometheus 等监控组件迁移

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。