ask tiflash | 关于 MPP task 和 stage 的疑问

BigC · 2023 年3 月 27 日 06:31

【 TiDB 使用环境】
生产环境
【 TiDB 版本】
6.5
【复现路径】
N/A
【遇到的问题：问题现象及影响】
TiFlash 文档 - 执行器线程模型，里面有一段内容：
“TiDB optimizer 会根据规则与 cost 决定为这条 query 生成 MPP plan。每个 MPP plan 会被切分为多个 stage，每个 stage 则会实例化为若干个 MPP task。”
疑问点：
1）划分为多个 stage 的依据是什么？
2）实例化为若干个 MPP task， “若干个”内部的机制是计算出实际是多个的？它们是平均发送到所有的 tiflash 节点吗
【资源配置】
【附件：截图/日志/监控】

Billmay表妹 · 2023 年4 月 10 日 10:22

关于您的问题：

划分为多个 stage 的依据是什么？

根据文档中的介绍，MPP plan 会被切分为多个 stage，每个 stage 的划分依据是数据的分布情况和计算的复杂度。具体来说，每个 stage 的数据分布应该尽量均匀，计算复杂度也应该尽量平衡。

实例化为若干个 MPP task， “若干个”内部的机制是计算出实际是多个的？它们是平均发送到所有的 TiFlash 节点吗？

根据文档中的介绍，每个 stage 会实例化为若干个 MPP task，具体的数量取决于数据的分布情况和计算的复杂度。这些 MPP task 会被平均分配到所有的 TiFlash 节点上进行计算。在 TiFlash 中，每个节点都有一个 TiFlash Proxy 进程，它会负责接收来自 TiDB 的查询请求，并将查询请求分发给 TiFlash 中的多个节点进行计算。因此，每个 TiFlash 节点都会参与到 MPP 计算中。