TIDB&HADOOP结合使用场景

【 TiDB 使用环境】 Poc
【 TiDB 版本】
【遇到的问题:问题现象及影响】大家有没有尝试过把TiDB接入大数据生态,当中纯AP场景使用

比如Hadoop作为重型SQl跑批处理,TiDB作为集市层数据服务,但是两者直接如何做一个更加便利的打通;因为TiD B 目前还不设计类似StarRocks/Doris中的catalog外部表能力

假如用了tidb,优先考虑tiflash能否满足需求,不能满足,再把数据摆出去。

tiflash也是列存,支持MPP。

https://docs.pingcap.com/zh/tidb/stable/tiflash-overview

https://docs.pingcap.com/zh/tidb/stable/use-tiflash-mpp-mode

1 个赞

我这是通过ticdc发送增量数据到kafka,大数据那边通过flume消费kafka到hive中。

2 个赞

作为分析型一般情况下需要两种能力,一个是跑重批,一个是查询加速;TIflash解决的是第二个场景

1 个赞

对外暴露的Adhoc查询呢以及报表等支持呢

起个java之类的服务对外提供接口,报表找前端写个h5页面,或者用bi工具。

1 个赞

报表业务可以考虑

发出的文章链接,没看到如何连接外部的hadoop的数据?

目前还没直接支持Hadoop

确实,因为我给的建议也不是这个,你可能看错了。

tiflash性能不行,我们是简单的在tiflash上跑,涉及到大批量的用doris,外挂hadoop+iceberg/paimon