lightning加载后analyze操作性能问题

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】
v4.0.10


image

【问题描述】
执行lightning加载tpcc50000仓数据后,analyze操作耗时较长。tpcc50000仓数据约3.5T,lightning加载任务总耗时141327s(39小时15分27秒),但是耗时的后面一半时间数据实际已经入库,后台show processlist是在做analyze操作。
如analyze统计tpcc的warehouse表,5W行数据,analyze执行8.6小时。
请帮忙确认这个lightning加载性能和加载后期的analyze性能是否正常,是否还有优化空间


image

另外在执行analyze的时间段,查看监控有大量的锁,analyze操作不是应该不锁表吗

2

3台服务器配置
image
image

50000仓数据加载的lightning日志及配置文件
load50000.zip (3.1 MB)
tidb-lightning.zip (5.6 MB)
load.toml (964 字节)

现在单跑analyze的耗时以及样例数据,是完全随机的数据,统计操作比较耗时吗
image


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

1、看起来使用的是 lightninglocal 的模式导入数据后,analyze table 时间比较长 ~

2、如果 bmsql_warehouse 表是一个测试表,能否:

  • 将该表使用 dumpling 导出
  • 再使用 lightningtidb-backend 的方式将数据导入到集群
  • analyze 这个新导入的表,观察下统计信息收集的耗时情况

3、手动 analyze 消耗 34 分钟的时候,请找下对应的 slowlog ,并且上传下相关的信息 ~

环境现在正在测试tpcc性能,回头方便的时候我再跑一次试试。

嗯嗯,如果再一次跑测试,可以将相应的数据上传,我们一起再看下 ~~