咨询技术选型，tidb在多维度汇总上的性能与设计

cugb · 2019 年10 月 22 日 03:20

【系统版本 & kernel 版本】
【TiDB 版本】
【磁盘型号】
【集群节点分布】
【数据量 & region 数量 & 副本数】
【问题描述（找不到技术选型有关的tag，就提问到这个目录了，下面的模板不套了，还没到部署那一步。我们的场景是这样的，需要多写，少读，但是读的时候是大量聚合汇总的，比如一个有三十个字段的表，可能有十个中的若干个用于group by，其他的字段只是单纯的汇总。也有排序和分页的需求，不知道tidb在这种场景的性能怎样？有没有什么设计规约？查询几乎全部为多字段group by分组查询，响应时间要在1秒以内。数据量规模也很大，暂时无法明确评估总量，但一次聚合很可能是千万级别的数据量聚算，是否适合使用tidb呢？正在选型，又查不到这方面的资料，论坛也没有选型有关的评估就提到这里了谢谢。）】
【关键词】

18515065291 · 2019 年10 月 22 日 07:20

1、centos7.3+ 2、上最新的，3.0.4 3、优先闪存卡，不行就SSD 4、TiDB & PD 混合部署，3台机器，监控选择其中一台即可 TiKV 单机多实例或者单机单实例部署，3台+ 5、数据量看磁盘，单集群几十T都行；副本默认3副本即可，5副本需要测试 6、我们有这种业务，需要经常关注查询SQL，索引情况，要经常关注SQL执行计划是否走了正确的索引 7、或者ES测试下

18515065291 · 2019 年10 月 22 日 07:22

另：单机实例数，最好参考单tikv16核cpu

cugb · 2019 年10 月 22 日 07:59

我们之前就是用es，现打算重构，es对全文检索支持很好，但是经过一年多的线上运营，发现聚合这一块不够好，所以现在考虑tidb这种类分布式关系型数据库。我们这种业务场景其实不能利用es的优势。只看数据的格式，业务的需求，特别类似关系型数据库的按行存放，然后用其中几列的值进行检索和聚合的场景，所以根本用不上全文检索。目前没有找到tidb在多维度聚合这一块明确的性能和资料，刚刚才看到一个压测报告，因为我们是web即席查询，所以执行一秒以上肯定是有问题的。你们也是海量数据大量写少量读但是要多维度聚合统计的场景吗？请问数据量级怎样，能否即席查询呢？单请求的执行时间是多少呢。谢回复。

cugb · 2019 年10 月 22 日 08:02

多维度去聚合类似关系型数据库的group by吧，相应用来group的字段也是需要索引吧，我刚看一个文档说会做下推，如果前面存的时候没有设计好，可能存放容易，查询时就算走索引也会有倾斜问题吧？这个太痛苦了。

18515065291 · 2019 年10 月 22 日 08:02

目前还在线上调试阶段，还没有稳定；数据量的话大约150亿+，目前查询还是索引调试阶段，如果都能完美匹配索引的话，还是挺快的

cugb · 2019 年10 月 22 日 08:10

完美匹配索引，多维度聚合计算能即席查询吗？返回结果在1秒左右是否现实？你那边三台机器就能撑住150亿数据吗，单条大概多大空间？值得学习学习这个设计。我们的需求是比如我们会存放用户，地区，小时，pv值等指标，我要按地区和小时进行最近一个月的pv求和这种。实际场景要聚合求合之类的计算的字段有很多，聚合维度参数也有十个左右，看业务。