TiSpark 使用指南&资料大全

TiDB童童 · 2022 年8 月 15 日 02:21

什么是 TiSpark 呢？

TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品。它借助 Spark 平台，同时融合 TiKV 分布式集群的优势，和 TiDB 一起为用户一站式解决 HTAP (Hybrid Transactional/Analytical Processing) 的需求。

TiSpark 深度整合了 Spark Catalyst 引擎，可以对计算进行精确的控制，使 Spark 能够高效地读取 TiKV 中的数据。TiSpark 还提供索引支持，帮助实现高速点查。

TiSpark 通过将计算下推到 TiKV 中提升了数据查询的效率，减少了 Spark SQL 需要处理的数据量，通过 TiDB 内置的统计信息选择最优的查询计划。

TiSpark 和 TiDB 可以让用户无需创建和维护 ETL，直接在同一个平台上进行事务和分析两种任务。这简化了系统架构，降低了运维成本。

用户可以在 TiDB 上使用 Spark 生态圈的多种工具进行数据处理，例如：

除此之外，TiSpark 还提供了分布式写入 TiKV 的功能。与使用 Spark 结合 JDBC 写入 TiDB 的方式相比，分布式写入 TiKV 能够实现事务（要么全部数据写入成功，要么全部都写入失败）。

如有TiSpark相关问题，欢迎到Asktug发问，点击查看问题搜索指南&提问准则！

ShawnYan · 2022 年8 月 16 日 07:42

ShawnYan · 2023 年11 月 9 日 02:07

补充更新：

双开门变频冰箱 · 2024 年2 月 3 日 02:49

TiDBer_rvITcue9 · 2024 年3 月 13 日 01:26

感谢分享

AN_12 · 2024 年3 月 29 日 05:53

Tispark不是不在维护了吗后期版本我们可以继续使用么？会跟着TIDB版本进行升级么

lllzd · 2025 年6 月 22 日 10:52

太好了，谢谢楼主分享！

TiDB_xstler · 2025 年8 月 12 日 02:27

感谢分享

TiDBer_scUzyb6i · 2025 年8 月 27 日 05:36

感谢分享

我是火炎焱燚 · 2025 年9 月 12 日 06:25

感谢分享

awker · 2025 年10 月 18 日 11:35

专业啊

awker · 2025 年10 月 18 日 11:35

感谢感谢

北极星DB · 2025 年10 月 19 日 12:34

看着类似PySpark的架构呢，呵呵~

vven · 2025 年10 月 26 日 08:14

大佬太厉害了

北极星DB · 2025 年10 月 26 日 13:01

感谢分享

vven · 2025 年10 月 26 日 16:21

感谢分享

北极星DB · 2025 年11 月 1 日 12:58

感谢分享

北极星DB · 2025 年11 月 14 日 02:49

是的，之前搭建大数据集群，hive3和hive2搭配Spark就有很大的差异，各种奇怪的问题，还是严格按照官方提供的依赖关系搭配使用才是~

异乡的大人 · 2025 年11 月 27 日 03:15

感谢分享这么多