课程名称:课程版本(101) , 分布式数据库发展简史 + Why HTAP matters
学习时长:5分钟
课程收获:
- 大致了解了传统的RDBMS, NoSql, NewSql区别及适用场景
- 了解HTAP数据库提供的功能及场景, TiDB适用于业务场景, 4.0 新架构
课程内容:
-
所谓单体数据库有以下特点:
- 共享CPU,磁盘, 内存等设备,
- 单台存储有限(当行数过多后, 存在索引失效问题)
- 存储引擎基本采用行式存储
- 主要处理 OLTP 事务
-
数据仓库用于对数据进行分析, 多为OLAP事务,
- 好处: 将数据库和数仓隔离开来(两者的确有不同需求)
- Hadoop等 map-reduce, 由程序语言编写(对比SQL)
- 出于实时业务的缘故, HTAP有其必要性
- 传统Data warehouse通常通过消息队列的中间件在生产环境中传输给DW, 这一步骤通常耗时相对较长,对及时性高业务力不从心(补充下我的感受)
-
近年出现了NoSQL这样基于KV进行存储
- 放弃了ACID?(似乎NoSql数据库也能支持ACID)
-
NewSQL:
- 支持HTAP业务
-
HTAP:
- Transactional processing(TP) vs. Analytical processing(AP)
- TP:
- high concurrency, data must be consistent
- row-based
- Point-search like(few rows involved)
- AP:
- historical data(therefore tolerable with accuracy?)
- column-based storage, large batch process
- Traditional DB scenario:
- 周期性ETL耗时, AP业务需返回至线上业务
- Blurry diff between TP&AP(真就啥功能都想要呗)
- Why HTAP DB so hard?
- Scalable :
- Teradata provides scalable AP as early as 90s
- Storage:
- How to support two formats
- Compatibility with TP & AP
7.
- Scalable :
- 一站式线上DB+BI, 实时数仓
学习过程中参考的其他资料
暂无