TiDB于hbase+Phoenix和kudu+impala的性能对比如何???

大家好,我们计划重新设计数仓结构,在考虑数据组件的选择,目前考虑了三种: 1.impala+kudu 2.hbase+phoenix 3.TiDB+TiSpark 目前,这三种上面,第一种在join方面以及分析方面会好一些,而第二种则更多是用于单点数据的快速查询,类似OLTP的场景,而第三张尚未进行测试,所以,想基于一是join连表查询以及聚合,去重等常用sql方面,性能和上面两者相比,到底是有提升还是说差别不大,所以烦请解答,谢谢~~~

1赞

https://www.jianshu.com/p/339ea08754eb 这是之前看过的易果集团的实时数仓建设思路

这是https://www.slideshare.net/cloudera/performance-of-apache-impala kudu+impala的性能示例

性能对比欢迎结合具体的场景进行测试,测试过程中发现性能方面不符合预期的情况,可以在论坛发帖,相关技术同事会帮助处理。

根据你的描述,涉及到的数仓还是偏实时的或者说准实时的,那就姑且认为需求为准实时数仓,先说一下我们当初选择TiDB+TiSpark的理由,因为已经有一套SqlServer在出数了,而且跑了很复杂的存储过程,如果贸然改变计算逻辑是不太现实的,而支持即时更新的也只有TiDB做的到,因此选择了TiDB+TiSpark,当然本身基于spark的查询也基本能够保证性能要求。在说回这三种选型把,impala+kudu最常见的就是神策了,对于实时性要求能够满足分钟级别要求,在千万亿级别这种场景下,分析的性能应该是最好的。hbase+phoenix本身你有说了,因为hbase的特性来说,单点是能够快速查询的,基于开源版本的phoenix在千万级别的数据就有可能会出现性能瓶颈,阿里云的就另说了。基于hbase的apache社区还有一个Trafodion,你也可以测测。最后说一下,TiDB+TiSpark,目前的olap还是基于spark的,存粹从性能角度说,在大数据量的情况下,大部分join的性能应该是差别不大,或者说比不上impala的。想要看性能还是等等TiFlash把。如果是应用场景那就自己去选择了。

3赞

看到了,可能您是易果集团的,那么可能还需要跟您交流下,13552879715 这是我的微信,可以的话咱们微信聊下,感谢!:smiley: