TiDB 4.0 PCTA 学习笔记 - Day 1 (分布式数据库发展简史 + Why HTAP matters)@4+IlIllll

课程名称:课程版本(101) , 分布式数据库发展简史 + Why HTAP matters

学习时长:5分钟

课程收获:

  1. 大致了解了传统的RDBMS, NoSql, NewSql区别及适用场景
  2. 了解HTAP数据库提供的功能及场景, TiDB适用于业务场景, 4.0 新架构

课程内容:

  1. 所谓单体数据库有以下特点:

    1. 共享CPU,磁盘, 内存等设备,
    2. 单台存储有限(当行数过多后, 存在索引失效问题)
    3. 存储引擎基本采用行式存储
    4. 主要处理 OLTP 事务
  2. 数据仓库用于对数据进行分析, 多为OLAP事务,

    1. 好处: 将数据库和数仓隔离开来(两者的确有不同需求)
    2. Hadoop等 map-reduce, 由程序语言编写(对比SQL)
    3. 出于实时业务的缘故, HTAP有其必要性
      1. 传统Data warehouse通常通过消息队列的中间件在生产环境中传输给DW, 这一步骤通常耗时相对较长,对及时性高业务力不从心(补充下我的感受)
  3. 近年出现了NoSQL这样基于KV进行存储

    1. 放弃了ACID?(似乎NoSql数据库也能支持ACID)
  4. NewSQL:

    1. 支持HTAP业务
  5. HTAP:

    1. Transactional processing(TP) vs. Analytical processing(AP)
    2. TP:
      1. high concurrency, data must be consistent
      2. row-based
      3. Point-search like(few rows involved)
    3. AP:
      1. historical data(therefore tolerable with accuracy?)
      2. column-based storage, large batch process
    4. Traditional DB scenario:
      1. 周期性ETL耗时, AP业务需返回至线上业务
    5. Blurry diff between TP&AP(真就啥功能都想要呗)
    6. Why HTAP DB so hard?
      1. Scalable :
        1. Teradata provides scalable AP as early as 90s
      2. Storage:
        1. How to support two formats
      3. Compatibility with TP & AP
        7.
    7. 一站式线上DB+BI, 实时数仓

学习过程中参考的其他资料

暂无