TiDB-Lightning导入数据卡住

【 TiDB 使用环境】生产 【 TiDB 版本】5.4 【数据体量】800G TIDB 3台6核256G内存 4台KV同上配置 【复现路径】通过使用lightning进行数据恢复一直卡到如下日志地方
【问题现象及影响】

TiDB-Lightning导入数据太慢

[INFO] [pd.go:406] [“pause scheduler(configs)”] [name=“[balance-region-scheduler,balance-leader-scheduler,balance-hot-region-scheduler]”] [cfg=“{"enable-location-replacement":"false","leader-schedule-limit":40,"max-merge-region-keys":0,"max-merge-region-size":0,"max-pending-peer-count":2147483647,"max-snapshot-count":40,"region-schedule-limit":40}”]

我看还是有 progress 的进度,为何说卡住呢?

因为一直再这个日志卡了24小时了总量数据就800G

lightning卡在99%,一直不动 麻烦按这个回答的操作,试试看抓一下 lightning 的 go routine, 看看卡在哪里?

goroutine.log (126.3 KB)

800G数据重新跑了一天卡住然后重新启动的lightning也是卡住

1 个赞
  1. 看日志,只导入了 37% 左右
  2. tidb 和 tikv 的内存都很多,但是 cpu 很少。请查看下 tidb 集群的监控,cpu,内存,磁盘空间等是否都正常?
  3. lightning 部署在哪里? 使用的配置如何?请查看下 lightning 的监控,看看是否有资源瓶颈。
  4. 因为 TiDB Lightning 对计算机资源消耗较高,建议分配 16 GB 以上的内存以及 32 核以上的 CPU 以获取最佳性能
  5. tidb 集群要求

lightning部署的是6核256G的单独服务器上面,已经导入成功了300G的库和100G的库几个库,现在导入的是800G的最大的一个库,现在能看出来是因为性能瓶颈导致的吗?

重新删除了数据库和断电文件重新启动lightning 依然卡住,日志如下goroutine (1).log (335.2 KB) tidb-lightning.log.1 (299.5 KB)

看日志没有error信息,监控项有达到阈值的吗

监控这块暂时无法看到,这个是内部限制问题,暂时只能通过系统指令查看 导入机 CPU是一直100% ,之前已经导入成功过一个300G的表耗时3小时,这个800G的耗时16小时了已经卡了十几个小时了

  1. 按照文档,可以考虑设置下参数region-concurrency,减少并行度,cpu 消耗。
    https://docs.pingcap.com/zh/tidb/stable/troubleshoot-tidb-lightning#tidb-lightning-导入速度太慢
  2. 或者考虑按照文档要求尽量用满足条件的机器资源。
  3. 或者拆分下,分批导入数据。

当前tidb-lightning.toml只配置了断点续传 index-concurrency = 1 table-concurrency =1 region-concurrency = 5 其他都是默认标准配置

还有一个问题,现在是卡住了,如果是因为机器性能的问题什么样的场景会卡在一个地方10多个小时,这个配置毕竟是已经导入成功过几个 300G的库,还有没有其他方式能查看卡在哪里了

[progress] [total=34.8%] [tables=“114/119 (95.8%)”] [chunks=“2906/7883 (36.9%)”] [engines=“216/229 (94.3%)”] [speed(MiB/s)=9.852305238553472] [state=writing] [remaining=13h54m21s]
[2022/08/25 01:17:43.309 +08:00] [INFO] [restore.go:1683] [“switch to import mode”]
这个正常后面都是提示switch to import mode吗,我咋感觉正常后面不是这个呢

1 个赞

和群主沟通了 他机器cpu核心太少不满足最低要求 让他升级硬件

tidb-lightning有没有异常退出,可能导致集群扔处于导入模式,导致cpu飙升,可以强制切回普通模式再试试
https://docs.pingcap.com/zh/tidb/dev/troubleshoot-tidb-lightning#使用-tidb-lightning-后tidb-集群变慢cpu-占用高

1 个赞

可以试试分批导入嘛,大表一张一张导:grin:

可以扩展一下CPU

已解决,全量数据有点问题,单sql文件存在超50G的文件,可能传输过程中导致的,替换之后就好了