TPCH100 sql5 运行失败

TiDBer_jYQINSnf · 2022 年2 月 25 日 08:05

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：
【 TiDB 使用环境】
TiDB + kubernetes

【概述】场景 + 问题概述
TPCH SQL 5跑失败
配置：
TIFLASH： 48c 192G

【背景】做过哪些操作

【现象】业务和数据库现象
OOM

换成32c 128G *3 的规格后，报错：
ERROR 1105 (HY000): other error for mpp stream: DB::Exception: Exchange receiver meet error : DB::Exception: Packet is too large to send, size : 2191668497

【问题】当前遇到的问题

【业务影响】

【 TiDB 版本】
5.4.0
【附件】相关日志及监控（https://metricstool.pingcap.com/)

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

spc_monkey · 2022 年2 月 26 日 10:28

这个我们反馈一下吧

TiDBer_jYQINSnf · 2022 年2 月 28 日 02:36

好的，我看官网测试出了结果，就是不太清楚规格是多少。如果有特定的规格要求麻烦给我说下，我测试下。谢谢。

spc_monkey · 2022 年2 月 28 日 02:38

好的

spc_monkey · 2022 年2 月 28 日 06:16

@TiDBer_jYQINSnf 单个MPPDataPacket的数据大于2G，就会报这个错。

已创建相关 issue : https://github.com/pingcap/tics/issues/3436

，一般来说MPPDataPacket不会大于2G。

目前碰到的超过2G的都属于plan不合理。需要咱们 analyze一下表，让我们的 cbo 能选正确的plan。

TiDBer_jYQINSnf · 2022 年2 月 28 日 07:19

好的，感谢。我analyze一下试试。

TiDBer_jYQINSnf · 2022 年2 月 28 日 07:36

analyze以后，可以正常执行。感谢感谢！

spc_monkey · 2022 年2 月 28 日 07:43

TiDBer_jYQINSnf · 2022 年2 月 28 日 08:16

麻烦问下大佬，官网的测试 https://docs.pingcap.com/zh/tidb/stable/v5.4-performance-benchmarking-with-tpch

节点数量：3
CPU：Intel® Xeon® CPU E5-2630 v4 @ 2.20GHz，40 核
内存：189 GB
磁盘：NVMe 3TB * 2

这个指的是tiflash的配置还是说整个tidb集群占用这么多资源？如果是后者的话，具体的每个节点什么配置能给说下吗？

spc_monkey · 2022 年2 月 28 日 08:19

整个节点（服务器的配置），没有特殊说明，可以理解为全部是默认配置吧（不过你tpch 肯定是要用 tiflash 的，需要确保表创建了 tiflash replica）

TiDBer_jYQINSnf · 2022 年2 月 28 日 08:20

意思是３个机器包含了tidb\pd\tikv\tiflash？他们混用cpu?

spc_monkey · 2022 年2 月 28 日 08:21

嗯嗯

system · 2022 年10 月 31 日 19:06

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。