咨询技术选型,tidb在多维度汇总上的性能与设计

  • 系统版本 & kernel 版本
  • TiDB 版本
  • 磁盘型号
  • 集群节点分布
  • 数据量 & region 数量 & 副本数
  • 问题描述(找不到技术选型有关的tag,就提问到这个目录了,下面的模板不套了,还没到部署那一步。 我们的场景是这样的,需要多写,少读,但是读的时候是大量聚合汇总的,比如一个有三十个字段的表,可能有十个中的若干个用于group by,其他的字段只是单纯的汇总。 也有排序和分页的需求,不知道tidb在这种场景的性能怎样?有没有什么设计规约? 查询几乎全部为多字段group by分组查询,响应时间要在1秒以内。数据量规模也很大,暂时无法明确评估总量,但一次聚合很可能是千万级别的数据量聚算,是否适合使用tidb呢?正在选型,又查不到这方面的资料,论坛也没有选型有关的评估就提到这里了谢谢。)
  • 关键词
1 个赞

1、centos7.3+ 2、上最新的,3.0.4 3、优先闪存卡,不行就SSD 4、TiDB & PD 混合部署,3台机器,监控选择其中一台即可 TiKV 单机多实例 或者单机单实例部署,3台+ 5、数据量看磁盘,单集群几十T都行;副本默认3副本即可,5副本需要测试 6、我们有这种业务,需要经常关注查询SQL,索引情况,要经常关注SQL执行计划是否走了正确的索引 7、或者ES测试下

另:单机实例数,最好参考单tikv16核cpu

我们之前就是用es,现打算重构,es对全文检索支持很好,但是经过一年多的线上运营,发现聚合这一块不够好,所以现在考虑tidb这种类分布式关系型数据库。 我们这种业务场景其实不能利用es的优势。只看数据的格式,业务的需求,特别类似关系型数据库的按行存放,然后用其中几列的值进行检索和聚合的场景,所以根本用不上全文检索。 目前没有找到tidb在多维度聚合这一块明确的性能和资料,刚刚才看到一个压测报告,因为我们是web即席查询,所以执行一秒以上肯定是有问题的。 你们也是海量数据大量写少量读但是要多维度聚合统计的场景吗?请问数据量级怎样,能否即席查询呢?单请求的执行时间是多少呢。 谢回复。

多维度去聚合类似关系型数据库的group by吧,相应用来group的字段也是需要索引吧,我刚看一个文档说会做下推,如果前面存的时候没有设计好,可能存放容易,查询时就算走索引也会有倾斜问题吧?这个太痛苦了。

目前还在线上调试阶段,还没有稳定;数据量的话大约150亿+,目前查询还是索引调试阶段,如果都能完美匹配索引的话,还是挺快的

完美匹配索引,多维度聚合计算能即席查询吗?返回结果在1秒左右是否现实?你那边三台机器就能撑住150亿数据吗,单条大概多大空间?值得学习学习这个设计。 我们的需求是比如我们会存放用户,地区,小时,pv值等指标,我要按地区和小时进行最近一个月的pv求和这种。实际场景要聚合求合之类的计算的字段有很多,聚合维度参数也有十个左右,看业务。