tikv引擎的join效率问题

华健-梦诚科技 · 2022 年5 月 10 日 04:20

版本： 5.4

SQL（简化后）：
explain analyze
select t1.id, t2.id from global_dwb.f_record_progress t1
join global_dwb.f_spot_part_progress t2 on t2.tenant = t1.tenant and t2.org_id = t1.org_id and t2.part_id = t1.part_id and t2.spot_id = t1.spot_id and t2.progress_id = t1.progress_id

数据量：
t1 (f_record_progress) 521万
t2 (f_spot_part_progress) 1156万

使用tiflash引擎跑：

使用tikv引擎跑：

问题：
实际的SQL是出现在update中的，所以只能用到tikv引擎，一跑就OOM了
感觉明显的执行计划不对劲，时间很长而且占用内存非常多
这是什么原因呢？有没有办法解决？

xfworld · 2022 年5 月 10 日 06:06

tikv 明显是把数据都聚合到 tidb 在进行筛选的，

没有索引么？
表的健康度不对

建议先对解决表健康度的问题，然后可以考虑通过索引的方式进行配对，减少回表操作

华健-梦诚科技 · 2022 年5 月 10 日 06:14

表的健康度怎么看？是看统计信息这里吗？
索引确实没有，因为类似的表和sql特别多，不想所有用于关联的字段都加上索引，太大
就算是都取到tidb里，这个表一共1156万行，实际取的行数是1.8亿，不太对劲呢

xfworld · 2022 年5 月 10 日 06:16

这个和统计信息相关，统计信息影响执行计划，执行计划会影响效率

参考官网文档
https://docs.pingcap.com/zh/tidb/stable/sql-statement-analyze-table#analyze

张雨齐0720 · 2022 年5 月 10 日 06:17

表的健康度信息

通过 SHOW STATS_HEALTHY 可以查看表的统计信息健康度，并粗略估计表上统计信息的准确度。当 modify_count >= row_count 时，健康度为 0；当 modify_count < row_count 时，健康度为 (1 - modify_count / row_count ) * 100。

语法如下：

Copy

SHOW STATS_HEALTHY [ShowLikeOrWhere];

官方文档见以下地址：
https://docs.pingcap.com/zh/tidb/stable/statistics#表的健康度信息

张雨齐0720 · 2022 年5 月 10 日 06:18

在上个简单表结构，看看索引，主键情况。
表结构涉密的话，show index from tablename;也可以

华健-梦诚科技 · 2022 年5 月 10 日 06:33

健康度没问题：

表结构：

华健-梦诚科技 · 2022 年5 月 10 日 07:08

我改写了一下SQL，用CTE的方式先把t2取到内存中，再去join，看着就比较正常了
所以我认为，原始SQL的执行计划规划的是有bug的
可能是想进行一定程度的优化，但是没做好，反而取了更多次重复的数据，导致oom

explain analyze
with t2 as
(
select tenant, id, org_id, part_id, spot_id, progress_id, design_stat_quantity, design_quantity, design_amount
from global_dwb.f_spot_part_progress
)
select t1.id, t2.id from global_dwb.f_record_progress t1
join t2 on t2.tenant = t1.tenant and t2.org_id = t1.org_id and t2.part_id = t1.part_id
and t2.spot_id = t1.spot_id and t2.progress_id = t1.progress_id