什么是 TiSpark 呢?
TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品。它借助 Spark 平台,同时融合 TiKV 分布式集群的优势,和 TiDB 一起为用户一站式解决 HTAP (Hybrid Transactional/Analytical Processing) 的需求。
TiSpark 深度整合了 Spark Catalyst 引擎,可以对计算进行精确的控制,使 Spark 能够高效地读取 TiKV 中的数据。TiSpark 还提供索引支持,帮助实现高速点查。
TiSpark 通过将计算下推到 TiKV 中提升了数据查询的效率,减少了 Spark SQL 需要处理的数据量,通过 TiDB 内置的统计信息选择最优的查询计划。
TiSpark 和 TiDB 可以让用户无需创建和维护 ETL,直接在同一个平台上进行事务和分析两种任务。这简化了系统架构,降低了运维成本。
用户可以在 TiDB 上使用 Spark 生态圈的多种工具进行数据处理,例如:
- TiSpark:数据分析和 ETL
- TiKV:数据检索
- 调度系统:生成报表
除此之外,TiSpark 还提供了分布式写入 TiKV 的功能。与使用 Spark 结合 JDBC 写入 TiDB 的方式相比,分布式写入 TiKV 能够实现事务(要么全部数据写入成功,要么全部都写入失败)。
TiSpark 的部署与使用
TiSpark 的开发实践及新功能解读文章合集
TiSpark 的源码解读文章合集
基于 TiSpark 的海量数据批量处理技术丨TiDB 工具
TiSpark 的热门问答
如有TiSpark相关问题,欢迎到Asktug发问,点击查看 问题搜索指南&提问准则 !