版本:
5.7.25-TiDB-v2.1.14
环境:
3Tidb+3PD+12TIKV
问题:
经常有一些insert语句执行超过1s,甚至有时候要5s左右。
根据监控观察,整体的io偏高,某个tikv节点有时100%的IO
但是也不应该出现一条简单的insert单条数据超过1s的情况。
一些监控图
slowlog
tidb的一些信息
tikv cpu
system info io
版本:
5.7.25-TiDB-v2.1.14
环境:
3Tidb+3PD+12TIKV
问题:
经常有一些insert语句执行超过1s,甚至有时候要5s左右。
根据监控观察,整体的io偏高,某个tikv节点有时100%的IO
但是也不应该出现一条简单的insert单条数据超过1s的情况。
一些监控图
slowlog
请问集群 insert 1s 持续多久了。
2.1 目前社区已经不提供支持,有需要可以找下我们的商业团队。
可以升级到 3.x 或者 4.x(建议),这边看下
升级到 4.x 吧,3.1 后续也不再维护了,定版了。
慢语句事情,可以理解为周期性慢语句吗,但是从 io util 看,持续时间还是比较长的啊。应该是集群长期都处于比较高的负载,
看下 pd region health 的情况。
PS:io util 持续很高,建议升级下硬件环境,应该会有很大的提升。
1.不是同表,不过这个集群也没有几张表。都是日志表,插入并发应该不算很高,应该不会有突增的高峰,qps可以看我上面贴的图,应该一个量级。
从slowlog看,从第2条到第18条都是2020-08-14 01:12:36左右的,看了那时候的ops和平常也差不多。
2.修改成batch insert需要业务配合,我后面和他们提一下
3.热点问题是有可能,这些表都用的id自增,了解过2.1版本存在这种写入热点的情况
4.io util持续很高的问题,我们硬件已经用了nvme ssd,通过节点扩容是否能改善一点。
感谢。
可以的,当前集群拓扑什么样子呢,nvme 1k 左右 qps 不应该有将近 80 % 的 io util。
使用以下方式截图 tikv trouble shooting 的监控看下,完整的哈。
打开 grafana 监控,先按 d 再按 shift+e 可以打开所有监控项。
(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl
(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。
(3)、使用这个 full-page-screen-capture 插件进行截屏保存
screencapture-10-9-72-106-3000-dashboard-db-archive-tikv-2020-08-27-20_52_01.zip (6.1 MB)
screencapture-10-9-72-106-3000-dashboard-db-archive-tikv-2020-08-27-20_52_01-2.zip (6.8 MB)
您好,图片太大,工具自动分成了两份。
调整下 tikv 配置文件参数:
[raftstore]
store-pool-size = 4 或 6
磁盘性能问题:
sst 文件压缩时间平均较长,sst read duration 时间 95 线,也比较高。
可以上传下 node_exporter 监控看下
请问下当前版本是 2.1 吗,看 raft store CPU 部分已经超过 100%,同时看 raft store CPU 部分有一个节点比其他节点明显高,结合写入慢现象,可能是热点问题,参考这个帖子的排查思路看下
另外放便的话拿下 TiDB & PD 监控
可以考虑做下升级吗?最新的版本已经到 4.0.5,先升级到 3.0 ,对性能这块是有提升的。
你好,请问我当前的2.1版本是否支持直接升级到3.1版本。还是需要先升级3.0