TiDB-Lightning导入数据卡住

hyman · 2022 年8 月 19 日 01:24

【 TiDB 使用环境】生产【 TiDB 版本】5.4 【数据体量】800G TIDB 3台6核256G内存 4台KV同上配置【复现路径】通过使用lightning进行数据恢复一直卡到如下日志地方
【问题现象及影响】

TiDB-Lightning导入数据太慢

[INFO] [pd.go:406] [“pause scheduler(configs)”] [name=“[balance-region-scheduler,balance-leader-scheduler,balance-hot-region-scheduler]”] [cfg=“{"enable-location-replacement":"false","leader-schedule-limit":40,"max-merge-region-keys":0,"max-merge-region-size":0,"max-pending-peer-count":2147483647,"max-snapshot-count":40,"region-schedule-limit":40}”]

wink · 2022 年8 月 19 日 01:36

我看还是有 progress 的进度，为何说卡住呢？

hyman · 2022 年8 月 19 日 01:37

因为一直再这个日志卡了24小时了总量数据就800G

wink · 2022 年8 月 19 日 01:41

lightning卡在99%，一直不动麻烦按这个回答的操作，试试看抓一下 lightning 的 go routine, 看看卡在哪里？

hyman · 2022 年8 月 24 日 01:25

goroutine.log (126.3 KB)

hyman · 2022 年8 月 24 日 01:34

800G数据重新跑了一天卡住然后重新启动的lightning也是卡住

yilong · 2022 年8 月 24 日 02:52

看日志，只导入了 37% 左右
tidb 和 tikv 的内存都很多，但是 cpu 很少。请查看下 tidb 集群的监控，cpu，内存，磁盘空间等是否都正常？
lightning 部署在哪里？使用的配置如何？请查看下 lightning 的监控，看看是否有资源瓶颈。
因为 TiDB Lightning 对计算机资源消耗较高，建议分配 16 GB 以上的内存以及 32 核以上的 CPU 以获取最佳性能
tidb 集群要求

image1520×696 83.6 KB

hyman · 2022 年8 月 24 日 03:00

lightning部署的是6核256G的单独服务器上面，已经导入成功了300G的库和100G的库几个库，现在导入的是800G的最大的一个库，现在能看出来是因为性能瓶颈导致的吗？

hyman · 2022 年8 月 25 日 01:24

重新删除了数据库和断电文件重新启动lightning 依然卡住，日志如下goroutine (1).log (335.2 KB) tidb-lightning.log.1 (299.5 KB)

alfred · 2022 年8 月 25 日 01:45

看日志没有error信息，监控项有达到阈值的吗

hyman · 2022 年8 月 25 日 01:47

监控这块暂时无法看到，这个是内部限制问题，暂时只能通过系统指令查看导入机 CPU是一直100% ，之前已经导入成功过一个300G的表耗时3小时，这个800G的耗时16小时了已经卡了十几个小时了

yilong · 2022 年8 月 25 日 02:14

按照文档，可以考虑设置下参数region-concurrency，减少并行度，cpu 消耗。
https://docs.pingcap.com/zh/tidb/stable/troubleshoot-tidb-lightning#tidb-lightning-导入速度太慢
或者考虑按照文档要求尽量用满足条件的机器资源。
或者拆分下，分批导入数据。

hyman · 2022 年8 月 25 日 02:18

当前tidb-lightning.toml只配置了断点续传 index-concurrency = 1 table-concurrency =1 region-concurrency = 5 其他都是默认标准配置

hyman · 2022 年8 月 25 日 02:24

还有一个问题，现在是卡住了，如果是因为机器性能的问题什么样的场景会卡在一个地方10多个小时，这个配置毕竟是已经导入成功过几个 300G的库，还有没有其他方式能查看卡在哪里了

Ming · 2022 年8 月 25 日 02:42

[progress] [total=34.8%] [tables=“114/119 (95.8%)”] [chunks=“2906/7883 (36.9%)”] [engines=“216/229 (94.3%)”] [speed(MiB/s)=9.852305238553472] [state=writing] [remaining=13h54m21s]
[2022/08/25 01:17:43.309 +08:00] [INFO] [restore.go:1683] [“switch to import mode”]
这个正常后面都是提示switch to import mode吗，我咋感觉正常后面不是这个呢

tidb狂热爱好者 · 2022 年8 月 25 日 02:57

和群主沟通了他机器cpu核心太少不满足最低要求让他升级硬件

gary · 2022 年8 月 25 日 03:27

tidb-lightning有没有异常退出，可能导致集群扔处于导入模式，导致cpu飙升，可以强制切回普通模式再试试
https://docs.pingcap.com/zh/tidb/dev/troubleshoot-tidb-lightning#使用-tidb-lightning-后tidb-集群变慢cpu-占用高

forever · 2022 年8 月 25 日 03:36

可以试试分批导入嘛，大表一张一张导

alfred · 2022 年8 月 25 日 15:24

可以扩展一下CPU

hyman · 2022 年8 月 29 日 01:23

已解决，全量数据有点问题，单sql文件存在超50G的文件，可能传输过程中导致的，替换之后就好了