tispark数据读取

dbaspace · 2021 年11 月 17 日 05:38

tispark 直接读取一种可以根据tidb的统计信息进行读取，那么读取TIKV数据，是根据条件去扫REGION 直接拉走？多个worker的工作节点怎么做到数据计算均衡,还是根据每个WORKER拉取的数据情况而定
如果不是根据tidb统计信息，数据读取参考自身的优化结果读取TIKV数据？

Lucien-卢西恩 · 2021 年11 月 17 日 07:07

Executor 执行逻辑和 spark 是一样的，会有负载不均衡的情况，可以参考一下 Spark 社区建议，调整 Spark worker 参数来均衡负载。https://blog.51cto.com/u_15072927/3901249

Spark 读取数据的逻辑都是暴力扫表的方式，优化主要依赖统计信息。如果是索引查询，最好选用 TiDB Server 处理。

dbaspace · 2021 年11 月 17 日 08:46

好，谢谢，，这个优化参数在官档上也有，目前在调研通过TISPARK查询是否比tidb更快，解决业务查询慢问题

system · 2022 年10 月 31 日 19:16

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。