tidb测试集群性能发现结果很慢

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】

【概述】 场景 + 问题概述
新搭建了一套tidb集群,调了一些参数,用sysbench测试发现qps只几千。注:tikv和tiflash是用物理机搭载的ssd盘。


【背景】 做过哪些操作

【现象】 业务和数据库现象

【问题】 当前遇到的问题

【业务影响】

【TiDB 版本】

【应用软件及版本】

【附件】 相关日志及配置信息

  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息

监控(https://metricstool.pingcap.com/)

  • TiDB-Overview Grafana监控
  • TiDB Grafana 监控
  • TiKV Grafana 监控
  • PD Grafana 监控
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

4 个赞

参考下配置 和 优化信息,然后在试试
https://docs.pingcap.com/zh/tidb/stable/benchmark-sysbench-v5.4.0-vs-v5.3.0
https://docs.pingcap.com/zh/tidb/stable/benchmark-tidb-using-sysbench

3 个赞

我用的6.0版本,我根据官方文档配了下,好像是慢。想问下大佬,是因为版本问题么

3 个赞

集群拓扑是怎样的

3 个赞

tidb、pd、tikv都是3副本,tiflash是2副本

3 个赞

6.0 还没正式 GA,,压测的话,还是用 5.4 吧
或者等到 6.0 GA~~

每个大版本之间的变化还是挺大的

3 个赞

:sweat_smile:,已经安装了。是不是要重新安装

3 个赞

都是单独的机器安装的吧,配置达到官网的要求了吗

3 个赞

tidb、pd、tikv都是3副本,tiflash是2副本

3 个赞

达到了,之前我在华为云上部署了一套,没有ssd,测试跑得qps都比现在高,所以不知道怎么回事

3 个赞

集群慢的情况比较复杂,可能性较多,可以参考下这个帖子

4 个赞


2 个赞

这种看看监控,分析一下哪里耗时

2 个赞

1、 集群部署拓扑tiup cluster display贴下。
2、按此导出下测试期间的监控快照包括overview/tidb/pd/tikv detail/node exporter https://metricstool.pingcap.com/#backup-with-dev-tools

1 个赞


tidb-test-Overview_2022-04-18T08_54_52.091Z.json (714.4 KB)

大佬帮忙看下,有啥建议。实在是看不出是哪里有问题:rofl:

1 个赞

部署前,内核参数,swap内存,文件句柄数限制等参数调整了吗?:thinking:

1 个赞

调整过了,不然检查得那一步会有fail的。大佬有其他什么好的建议吗

1 个赞

导出的快照文件只有1个且不全,从仅有的监控文件看pd tso duration高,原因可能是1、tidb server CPU高(看慢SQL 测试SQL是否缺索引等) 2、 pd磁盘太慢,使用ssd 3、 tidb和pd的网络延迟高
另外,建议前端配置haproxy 能负载均衡到后端几个tidb server, 另外tidb/tikv/tiflash节点nuamctl -H看下。检查下tikv/tiflash/pd的磁盘IO情况
image

1 个赞

[quote=“h5n1, post:20, topic:663887”]
pd tso duration
[/quote] 谢谢大佬,我也发现pd tso duration高。前端已经配置了haproxy。我tidbserver和pd部署在虚拟机的上,tikv和tiflash是部署在物理机上,是不是部署环境不统一太分散导致的。