tidb整体性能比较差

版本:
5.7.25-TiDB-v2.1.14
环境:
3Tidb+3PD+12TIKV
问题:
经常有一些insert语句执行超过1s,甚至有时候要5s左右。
根据监控观察,整体的io偏高,某个tikv节点有时100%的IO
但是也不应该出现一条简单的insert单条数据超过1s的情况。
一些监控图
slowlog


tidb的一些信息

tikv cpu

system info io

请问集群 insert 1s 持续多久了。
2.1 目前社区已经不提供支持,有需要可以找下我们的商业团队。
可以升级到 3.x 或者 4.x(建议),这边看下

slowlog.txt (65.6 KB)

持续时间应该不长,但是经常会有这样的问题,查了50条慢sql。具体可以看日志

版本升级的话,在计划中,优先考虑做tikv的扩容,然后升到3.1

升级到 4.x 吧,3.1 后续也不再维护了,定版了。

慢语句事情,可以理解为周期性慢语句吗,但是从 io util 看,持续时间还是比较长的啊。应该是集群长期都处于比较高的负载,
看下 pd region health 的情况。


pd region health如上。

  1. 看了下 slow log,因为已经脱敏,确认下是否为同表插入,插入的并发和量级是怎么样的。
  2. 这边看到 sql 的形式为 values 单条,可以写城 batch insert 形式看是否会有写入提高。
  3. 怀疑是 write 热点问题。
    辛苦确认下。

PS:io util 持续很高,建议升级下硬件环境,应该会有很大的提升。

1.不是同表,不过这个集群也没有几张表。都是日志表,插入并发应该不算很高,应该不会有突增的高峰,qps可以看我上面贴的图,应该一个量级。
从slowlog看,从第2条到第18条都是2020-08-14 01:12:36左右的,看了那时候的ops和平常也差不多。
2.修改成batch insert需要业务配合,我后面和他们提一下
3.热点问题是有可能,这些表都用的id自增,了解过2.1版本存在这种写入热点的情况
4.io util持续很高的问题,我们硬件已经用了nvme ssd,通过节点扩容是否能改善一点。
感谢。

可以的,当前集群拓扑什么样子呢,nvme 1k 左右 qps 不应该有将近 80 % 的 io util。

使用以下方式截图 tikv trouble shooting 的监控看下,完整的哈。


打开 grafana 监控,先按 d 再按 shift+e 可以打开所有监控项。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

screencapture-10-9-72-106-3000-dashboard-db-archive-tikv-2020-08-27-20_52_01.zip (6.1 MB)
screencapture-10-9-72-106-3000-dashboard-db-archive-tikv-2020-08-27-20_52_01-2.zip (6.8 MB)

您好,图片太大,工具自动分成了两份。

调整下 tikv 配置文件参数:
[raftstore]
store-pool-size = 4 或 6

磁盘性能问题:
sst 文件压缩时间平均较长,sst read duration 时间 95 线,也比较高。
可以上传下 node_exporter 监控看下


您好,node_exporter监控如图。

另外请教下
[raftstore]
store-pool-size = 4 或 6
这个参数怎么调整。

请问下当前版本是 2.1 吗,看 raft store CPU 部分已经超过 100%,同时看 raft store CPU 部分有一个节点比其他节点明显高,结合写入慢现象,可能是热点问题,参考这个帖子的排查思路看下

另外放便的话拿下 TiDB & PD 监控

您好,
我当前版本是2.1。
tidb和pd监控如下
screen-tidb-pd.zip (4.9 MB)

可以考虑做下升级吗?最新的版本已经到 4.0.5,先升级到 3.0 ,对性能这块是有提升的。

你好,请问我当前的2.1版本是否支持直接升级到3.1版本。还是需要先升级3.0

  1. 可以升级,参考下文档 https://docs.pingcap.com/zh/tidb/v3.1/upgrade-tidb-using-ansible
  2. 建议升级到 4.0 版本, 3.1 版本已经定版,之后不会再有大的修复改变和支持,多谢。