请问sparksql读取tidb数据执行sql。是不是底层要把整表都抽取过来,然后通过sparksql来进行计算?

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
5.2

【概述】 场景 + 问题概述

请问sparksql读取tidb数据执行sql。是不是底层要把整表都抽取过来,然后通过sparksql来进行计算?
是不是不会在tidb里进行计算?我有一个sql在tidb里执行很快。但是用sparksql来执行就会慢很多。

【应用框架及开发适配业务逻辑】

【背景】 做过哪些操作

【现象】 业务和数据库现象

【问题】 当前遇到的问题

【业务影响】

【TiDB 版本】

【附件】 相关日志及监控(https://metricstool.pingcap.com/)


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

  1. 不会整表,tidb 和 spark 都是从 tikv 读取数据。猜测可能是有一些 spark 不支持的下推?
  2. 方便发一下表结构和sql 吗? 同时上传下 tidb 中的执行计划,多谢。

好的。明白了。确实是执行计划有问题。感谢支持