sysbench测试5.1.2不稳定

版本:5.1.2
测试工具 sysbench
节点拓扑图:

性能成周期波动:

都是稳定一段时间后就比较差,
image

这是什么原因造成的呢,没有跑其他东西,这套测试环境只用于tidb测试

对比看下其他指标比如 tidb duration 有没有波动,调低并发会不会有类似情况

也是一样的 ,这次是2个线程测试,也会这样
image

原因可能是io被跑满了 ,但是两个线程都能跑满io吗

80的tps 和 500qps就能跑到这么高吗

(我检查过了 都是tidb高 )磁盘是普通ssd

看上去是 jbd2 io 占用高

这就有点难办了 ,生产就是用的ext4的格式,有什么办法解决吗,当初部署的时候tidb也是推荐使用ext4的

生产环境有遇到这个问题么,测试环境可以先尝试关闭 ext4 日志功能
https://cloud.tencent.com/developer/article/1465600

我现在把ext4的节点都缩容了 还是会出现那种情况

image

看一下 Duration 延迟抖动的那段时间的 slow query 有哪些慢SQL

sysbench的测试语句,都是些简单的查询更改

普通 SSD 大概率是磁盘延迟抖动导致的,可以看看 Disk Performance 中的吞吐量和 IOPS 是不是也有周期性的变化以及 Node Exporter 中的 CPU 负载变化;或者参考这里的写入慢排查思路从上至下排查原因 速度收藏!TiDB 读、写性能慢问题排查思路汇总

image

看不太出来是什么问题,磁盘用sysbench检查过 正常的

可以导出 grafana 监控页面 {Cluster-name}-TiDB 和 {Cluster-name}-TiKV-Details,便于分析具体是哪里 duration 抖动

https://metricstool.pingcap.com/#backup-with-dev-tools

参考 [FAQ] Grafana Metrics 页面的导出和导入

ystpay2-TiDB_2021-10-15T07_54_43.397Z.rar (344.0 KB) ystpay2-TiKV-Details_2021-10-15T07_32_08.147Z.rar (509.0 KB)

因为导出时间太长,我就把tidb的监控延长到最近3小时的监控了

tikv 监控 rocksdb-raft 的写盘延迟基本上能和 tidb 延迟抖动对的上

ioutil 还是比较高,iotop 还能看到 jbd2 这种进程占用吗
image

这是线程弄得高,我改成2个线程测试io跑不满 但是还是会有这种情况,
另外剩下的节点都是xfs格式的磁盘,没有jbd2线程了

可能和 rocksdb 定期 compaction 有关

可以尝试测试 4.0 版本看有没有类似问题,4.0 支持将 sync-log 设置 false 减少刷盘的影响 https://github.com/tikv/tikv/blob/v4.0.15/etc/config-template.toml#L244

这个就是改成两个线程来测试 ,io一样都能跑满,这样太奇怪了吧,

同一套机器能部署两个版本吗,我以前测过4.0.8,没有这种情况。

tiup 可以部署不同版本的集群