TiSpark 使用指南&资料大全🔥

什么是 TiSpark 呢?

TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品。它借助 Spark 平台,同时融合 TiKV 分布式集群的优势,和 TiDB 一起为用户一站式解决 HTAP (Hybrid Transactional/Analytical Processing) 的需求。

TiSpark 深度整合了 Spark Catalyst 引擎,可以对计算进行精确的控制,使 Spark 能够高效地读取 TiKV 中的数据。TiSpark 还提供索引支持,帮助实现高速点查。

TiSpark 通过将计算下推到 TiKV 中提升了数据查询的效率,减少了 Spark SQL 需要处理的数据量,通过 TiDB 内置的统计信息选择最优的查询计划。

TiSpark 和 TiDB 可以让用户无需创建和维护 ETL,直接在同一个平台上进行事务和分析两种任务。这简化了系统架构,降低了运维成本。

用户可以在 TiDB 上使用 Spark 生态圈的多种工具进行数据处理,例如:

  • TiSpark:数据分析和 ETL
  • TiKV:数据检索
  • 调度系统:生成报表

除此之外,TiSpark 还提供了分布式写入 TiKV 的功能。与使用 Spark 结合 JDBC 写入 TiDB 的方式相比,分布式写入 TiKV 能够实现事务(要么全部数据写入成功,要么全部都写入失败)。

TiSpark 的部署与使用

  1. TiSpark 用户指南

  2. TiSpark 服务安装、部署及测试

  3. TiSpark 部署拓扑

TiSpark 的开发实践及新功能解读文章合集







TiSpark 的源码解读文章合集




基于 TiSpark 的海量数据批量处理技术丨TiDB 工具

TiSpark 的热门问答



如有TiSpark相关问题,欢迎到Asktug发问,点击查看 问题搜索指南&提问准则

:+1: