tispark数据读取

tispark 直接读取一种可以根据tidb的统计信息进行读取,那么读取TIKV数据 ,是根据条件去扫REGION 直接拉走?多个worker的工作节点怎么做到数据计算均衡,还是根据每个WORKER拉取的数据情况而定
如果不是根据tidb统计信息,数据读取参考自身的优化结果读取TIKV数据?

Executor 执行逻辑和 spark 是一样的,会有负载不均衡的情况,可以参考一下 Spark 社区建议,调整 Spark worker 参数来均衡负载。https://blog.51cto.com/u_15072927/3901249

Spark 读取数据的逻辑都是暴力扫表的方式,优化主要依赖统计信息。如果是索引查询,最好选用 TiDB Server 处理。

好,谢谢,,这个优化参数 在官档上也有,目前在调研通过TISPARK查询是否比tidb更快,解决业务查询慢问题