tidb-lightning导入漏数如何解决与排查

【 TiDB 使用环境】生产\测试环境\ POC
【 TiDB 版本】5.3
【遇到的问题】
使用tidb-lightning5.0,5.4版本导入csv文件,结果与用wc -l命令统计的行数少,咋整
【复现路径】
【问题现象及影响】

表的数量级大多在千万以上,大部分都是少几十几百行这样子

先从 lightning log 确认导入是否正常全部完成 (从你的描述看缺少了数据,应该是有问题的),可以提供完整的 lightning log 吗,再提供说明出问题的那次导入,开始和结束的时间。

我导入了很多张表,一次执行只导入一张表,每次都有漏数

完整的log在客户的服务器,目前没办法从那里取文件出来,只能截图

要看看 log 才知道呀。现在只能猜测。比如导入的源数据里面有重复的主键,会导致表里的数据变少(因为主键唯一),这种情况在导入完成之前会通过 checksum 的比较来确定并报错。

有这个警告,问题是我从源库sqlserver导出的,源库里是有主键的,目标库也一样,不可能有重复主键的才对

duplicate key found 说明就是有重复的 key。可以发一下 table schema 文件吗?还有任务配置之类的。

sql server 我也不是很熟悉,或许您可以试一下用 tidb-backend 导入试一下?或者在 local-backend 打开 lightning 的 duplicate-resolution = “record” 功能,重新导入,然后看一下重复的 key 是啥?

https://docs.pingcap.com/zh/tidb/dev/tidb-lightning-error-resolution#local-backend-模式下解决重复问题

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。