TPCH100 sql5 运行失败

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
TiDB + kubernetes

【概述】 场景 + 问题概述
TPCH SQL 5跑失败
配置:
TIFLASH: 48c 192G

【背景】 做过哪些操作

【现象】 业务和数据库现象
OOM

换成32c 128G *3 的规格后,报错:
ERROR 1105 (HY000): other error for mpp stream: DB::Exception: Exchange receiver meet error : DB::Exception: Packet is too large to send, size : 2191668497

【问题】 当前遇到的问题

【业务影响】

【 TiDB 版本】
5.4.0
【附件】 相关日志及监控(https://metricstool.pingcap.com/)


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

1 个赞

这个我们反馈一下吧

好的,我看官网测试出了结果,就是不太清楚规格是多少。如果有特定的规格要求麻烦给我说下,我测试下。谢谢。

好的:grin:

@Hacker_hnSEntrA 单个MPPDataPacket的数据大于2G,就会报这个错。

已创建相关 issue : https://github.com/pingcap/tics/issues/3436

,一般来说MPPDataPacket不会大于2G。

目前碰到的超过2G的都属于plan不合理。需要咱们 analyze一下表,让我们的 cbo 能选正确的plan。

1 个赞

好的,感谢。我analyze一下试试。

analyze以后,可以正常执行。感谢感谢!

:call_me_hand::call_me_hand:

麻烦问下大佬,官网的测试 https://docs.pingcap.com/zh/tidb/stable/v5.4-performance-benchmarking-with-tpch

  • 节点数量:3
  • CPU:Intel® Xeon® CPU E5-2630 v4 @ 2.20GHz,40 核
  • 内存:189 GB
  • 磁盘:NVMe 3TB * 2

这个指的是tiflash的配置还是说整个tidb集群占用这么多资源?如果是后者的话,具体的每个节点什么配置能给说下吗?

整个节点(服务器的配置),没有特殊说明,可以理解为全部是默认配置吧(不过你tpch 肯定是要用 tiflash 的,需要确保 表创建了 tiflash replica)

意思是3个机器包含了tidb\pd\tikv\tiflash? 他们混用cpu?

嗯嗯:grinning:

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。