Lightning导入文件到tidb耗时太久,是配置问题吗?有更好的建议吗?

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】v7.1.0
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】从hdfs上get 128GB左右大小文件导入到tidb,花了6个多小时,请教下大佬们是哪出现了问题
【资源配置】
TIKV:8 (16 vCore) 64g
pd:2 (4 vCore) 16g
TIDB:8 (16 vCore) 64g


PD

【附件:截图/日志/监控】

配置参数:
[lightning]
check-requirements = true

#index-concurrency = 4
#table-concurrency = 8

#region-concurrency = 32
level = “info”
file = “/home/hive/data/cdp_lightning_logs”

max-size = 256 # MB 日志文件大小
max-days = 28
#io-concurrency = 5

max-error = 0
meta-schema-name = “lightning_metadata”

[tikv-importer]
backend = “local”
incremental-import = true
sorted-kv-dir = “/home/hive/data/cdp_lightning_kv”
#range-concurrency = 16
#send-kv-pairs = 98304 #32768
on-duplicate = “replace”
duplicate-resolution = “remove”
compress-kv-pairs = “gz”

[mydumper]
#read-block-size = “256MiB” # 默认值
no-schema = true

取值范围为(0 <= batch-import-ratio < 1)。

batch-import-ratio = 0.75

data-source-dir = “/home/hive/data/cdp_lightning_data”
character-set = “auto”

data-character-set = “binary”
data-invalid-char-replace = “uFFFD”

strict-format = true
max-region-size = “256MiB” # 默认值
[checkpoint]
enable = true

[post-restore]

checksum = “false”

analyze = “false”

[cron]

TiDB Lightning 自动

switch-mode = “5m”

在日志中打印导入进度

log-progress = “5m”

你导入的数据量大吗

可以看看导入时候各个资源的监控,看看瓶颈在哪。

文件大小128GB左右,有45亿行左右


kan’z看着都还行啊

parquet文件128G左右, kv大概有1TB左右.

是的,是parquent文件,转kv也是1TB这么大

lightning local模式主要消耗lightning主机的资源,提升lightning机器配置,sort dir需要使用ssd,导入时lightning看下资源消耗,cpu跑的很高才正常
lightning locl模式性能调优参考:https://docs.pingcap.com/zh/tidb/v6.5/tidb-lightning-physical-import-mode-usage#性能调优

这个可能有这样一部分原因,这个会影响这么大吗?平时跑这一半的数据1小时能完成。

lightning机器的IO和cpu情况,是不是有瓶颈



可能是这个原因,lightning的cpu使用率确实不高

大佬,lightning这个cpu使用不高有哪些原因呀

磁盘是SSD吗?

可以加并发看看,楼上也说了,local要用性能好的盘

加上调优参数提升导入性能。
可以开多个lightning任务,一个任务对应多个表或者一个库。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。