请教一下tiflash join优化的几个问题

xbthink · 2021 年1 月 13 日 08:35

使用tidb查询tiflash，我使用小数据量（查一天）测试时会走broadcast join的。但是当查询日期范围变大（维度表没有变化），就变成了在tidb上的hash join。
现在这块有几个问题想请教一下：
1.请问触发join下推的条件主要都有啥？
2.现在的join下推，只是broadcast join么，有没有shuffle join或者local join的实现？
3.如果两张表都非常大，比如一个几千万条，一个几亿条。基于tidb+tiflash可以查么，还是要上tispark？
我现在的理解是如果tiflash可以做shuffle join或者local join，是不是可以通过水平扩展tiflash实现啊

现在通的版本是v4.0.8，麻烦帮忙解答一下。。

北京大爷 · 2021 年1 月 13 日 14:50

由于现在 TiDB 并不支持 MPP 所以您说的 join 下推应该还是不能实现的
目前 tidb 支持的下推类型可以参考如下链接
https://docs.pingcap.com/zh/tidb/dev/expressions-pushed-down#下推到-tikv-的表达式列表

以以下的链接的执行计划为例
https://docs.pingcap.com/zh/tidb/dev/explain-overview

问题 1 ：问题本身有问题
问题 2：通过确认 tidb 支持的 hint 类型可以看到支持的 join 类型 index join、hash join、index hash join、merge join、index merge join 目前版本是关闭状态后续版本会再开放。
https://docs.pingcap.com/zh/tidb/dev/optimizer-hints
问题 3：根据我们的经验目前 TiDB+flash 在宽表、星型、雪花等模型上，主表需要聚合查询的数据量在千万级别以上，列存 tiflash 会有优势。但是多对多的大表 join 因为，数据聚合主要受到 tidb 的限制，所以可能出现 tidb oom 的情况，且不会有较好的计算特性。此时建议使用 tispark 进行分布式计算。
如果查询聚合的行数在 100w 左右 tikv 行存是更好的选择。
剧透 5.0GA 后 tidb 会支持 MPP 计算引擎。届时 join 加速将成为可能。

xbthink · 2021 年1 月 14 日 03:09

多谢，大体上明白了。我的问题1实际上针对文档上说的这个地方。

目前我的测试是查一天的数据会用BroadcastJoin，只是把date范围调成两天及以上就会变成在tidb的hash join。如下图所示，这个执行计划的选择是基于什么的啊，是cost，还是和分区表有关系，或者其他的？
sql：
explain analyze
select
cr.date as date,
dims.creative_account_id,
sum(cr.cost)/10000 as cost
from makepolo.vendor_creative_report cr
left join makepolo.creative_report_dims dims on dims.vendor_account_id = cr.vendor_account_id and dims.vendor_creative_id = cr.vendor_creative_id
left join makepolo.entity_vendor_account_tmp eva on eva.id=cr.vendor_account_id
where cr.date>=‘2020-12-01’ and cr.date<=‘2020-12-02’ and cr.vendor_creative_id <>‘0’ and eva.company_id in (5)
group by 1,2 order by 1,2;

北京大爷 · 2021 年1 月 14 日 04:29

这是因为你使用的是分区表，目前分区表如果是多个分区中是会使用 hashjoin 的。可以测试下非分区表。或者使用 union all 分别查询两个分区数据
目前的 tidb 分区表。每个分区表相当于一张独立的表。统计信息并不能有效融合。
未来 5.0 以后的版本应该会有所改变。

xbthink · 2021 年1 月 14 日 05:34

好的了解了，多谢

北京大爷 · 2021 年1 月 14 日 07:09

system · 2022 年10 月 31 日 19:11

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。