小红书数据架构及 TiDB 使用场景

小红书是一个内容+电商平台,截至 2019 年 10 月,小红书月活跃用户数已经过亿,并持续快速增长。

那么,一个快速发展的电商平台,为什么更愿意引入 NewSQL 技术栈?支持这些业务高速增长的后台的数据架构,是怎样迭代的?小红书都在哪些场景使用 TiDB 呢?我们来聊下这个问题。

技术栈的时间成本

小红书使用 TiDB 历史可以追溯到 2017 年甚至更早,大家知道 TiDB 1.0 GA 是在 2.017 年下半年发布的,也就是说在 GA 之前小红书就已经持续保持关注了。回头去看,2017 年的小红书已经具备了一定的体量,那时他们在物流、仓库等业务场景很渴望用新的技术,而与此同时 NewSQL 数据库开始真正落地。到了在 2018 年 5 月,TiDB 开始逐渐铺开,到了 2019 年初,小红书使用 TiDB 节点规模快速达到了 200+ 。当时 TUG 华东区大使俊骏同学有一篇案例详细了描述这个过程(https://mp.weixin.qq.com/s/fq7U_x4LftlqFx3vD1S3jw)

这里面的关键因素是时间成本,TiDB 对这类快速发展的公司,通过节省技术栈提供两个关键时间价值:

  • 在线业务方向,TiDB 天然扩展性避免了传统分库分表技术栈的引入,直接接入新一代技术;
  • 在线分析方向,TiDB 的 HTAP 能力,延缓引入或者部分替换繁重的 Hadoop 技术栈,准实时的数仓反向推动业务创新;

业务场景

TiDB 在小红书的使用场景是非常广的,其中主要的业务场景包括:

  • 数据中台、报表分析
  • 实时的业务后台查询
  • 实时风控与反欺诈类

WX20200626-221243%402x

小红书数据架构方案

  • TiDB 逐步成为数据服务层的主要解决方案;
  • 业务类的数据直接同步到 TiDB 进行实时类的后台查询;
  • 简化了 Hadoop 在离线数仓的使用,并且对离线结果数据同步到 TiDB,提供数据服务。

更多详情,推荐大家看一下小红书亿皓老师的视频分享《TiDB HTAP 助力小红书业务升级》https://www.bilibili.com/video/BV1hV411r7DE