应用场景匹配度咨询

我们是一家做Pass平台的企业,内部是微服务架构,每个微服务都是一个独立的业务,上千张表,单表数据量亿级。
我们正在对平台中的报表中心微服务进行技术架构选型和评估。在此过程中,我们发觉基于tidb的准实时计算场景好像蛮符合我们要求的,所以咨询一下。

应用场景描述:报表中心综合报表
1、平台中的报表中心微服务,用于串接所有微服务,生成各种准实时的综合报表(可以有5分钟左右的延迟)
2、每张综合报表涉及的业务表都会有10张以上,多张表会涉及亿级的大表计算,多表计算中涉及很多复杂逻辑,然后生成结果数据,结果数据基本会在千万级左右
3、输出的报表结果中,还会通过各种复杂的排序、分组、合并计算,然后输出到前台页面,或者导出

基于tidb的技术方案咨询:tidb、tiflash、tispark
1、tispark针对大数据量计算,是否能够支撑上面的大数据计算场景(时间、性能)
2、tispark针对结果数据写入tidb,是否能够支撑上面的千万级数据写入场景(时间、性能)
3、是否能够满足准实时的计算要求(很短的时间内,顺序完成上面的计算、写入工作,同时能够支持一定的并发量)

你好,实时报表算是我们一个典型场景。
先说查询,使用 tispark,10 张亿级别表 join,结果千万,1 分钟左右是可以做到的,建议使用高配的 CPU 机器,比较吃计算资源。tispark 结合 tiflash 会进一步提升。

写入的话,1 千万的规模,spark+kv 写入要 1 分钟左右时间级别,如果有索引的话,还会增加一些。