TiDB于hbase+Phoenix和kudu+impala的性能对比如何？？？

EllenAdams · 2019 年8 月 28 日 02:52

大家好，我们计划重新设计数仓结构，在考虑数据组件的选择，目前考虑了三种： 1.impala+kudu 2.hbase+phoenix 3.TiDB+TiSpark 目前，这三种上面，第一种在join方面以及分析方面会好一些，而第二种则更多是用于单点数据的快速查询，类似OLTP的场景，而第三张尚未进行测试，所以，想基于一是join连表查询以及聚合，去重等常用sql方面，性能和上面两者相比，到底是有提升还是说差别不大，所以烦请解答，谢谢~~~

EllenAdams · 2019 年8 月 28 日 02:52

https://www.jianshu.com/p/339ea08754eb 这是之前看过的易果集团的实时数仓建设思路

EllenAdams · 2019 年8 月 28 日 02:54

这是https://www.slideshare.net/cloudera/performance-of-apache-impala kudu+impala的性能示例

qizheng · 2019 年8 月 28 日 05:40

性能对比欢迎结合具体的场景进行测试，测试过程中发现性能方面不符合预期的情况，可以在论坛发帖，相关技术同事会帮助处理。

luo3601721 · 2019 年8 月 28 日 05:47

根据你的描述，涉及到的数仓还是偏实时的或者说准实时的，那就姑且认为需求为准实时数仓，先说一下我们当初选择TiDB+TiSpark的理由，因为已经有一套SqlServer在出数了，而且跑了很复杂的存储过程，如果贸然改变计算逻辑是不太现实的，而支持即时更新的也只有TiDB做的到，因此选择了TiDB+TiSpark，当然本身基于spark的查询也基本能够保证性能要求。在说回这三种选型把，impala+kudu最常见的就是神策了，对于实时性要求能够满足分钟级别要求，在千万亿级别这种场景下，分析的性能应该是最好的。hbase+phoenix本身你有说了，因为hbase的特性来说，单点是能够快速查询的，基于开源版本的phoenix在千万级别的数据就有可能会出现性能瓶颈，阿里云的就另说了。基于hbase的apache社区还有一个Trafodion，你也可以测测。最后说一下，TiDB+TiSpark，目前的olap还是基于spark的，存粹从性能角度说，在大数据量的情况下，大部分join的性能应该是差别不大，或者说比不上impala的。想要看性能还是等等TiFlash把。如果是应用场景那就自己去选择了。

EllenAdams · 2019 年8 月 28 日 06:00

看到了，可能您是易果集团的，那么可能还需要跟您交流下，13552879715 这是我的微信，可以的话咱们微信聊下，感谢！

system · 2022 年10 月 31 日 19:03

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。