3.0.4升级3.0.8之后写性能似乎变差了

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。




若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

麻烦提供一下 TiKV-Detail 监控中 grpc/Thread CPU/Raft IO/Rocks KV 的监控看下

grpc:












thread cpu:



Raft IO:

Rocks KV




























请问写性能明显下降是从哪边看到的,这边从监控上看比较正常

业务接口的性能变化,定位大部分慢都是在写数据层面

这个陡然的变化不异常吗?

嗯,但是看kv的一些监控项指标都还好 方便的话,麻烦导出完整的 overview/pd/tidb/tikv-detail 监控上传一下,我们这边再看下

导出监控为 pdf 的方式: 1)使用 chrome 浏览器,安装“Full Page Screen Capture”插件: https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

2)展开grafana 监控的 “cluster-name-overview” 的所有 dashboard (先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成)

3)使用插件导出 pdf

https://7vijd6.com2.z0.glb.clouddn.com/cluster-overview-2020-01-16-16_29_35.pdf 文件太大,没法上传

这个只是 overview 的监控

  1. pd
  2. tidb
  3. tikv-detail

的监控能上传一下吗

https://7vijd6.com2.z0.glb.clouddn.com/tikv-details-2020-01-16-19_29_42.pdf https://7vijd6.com2.z0.glb.clouddn.com/tidb-2020-01-16-19_27_37.pdf https://7vijd6.com2.z0.glb.clouddn.com/pd-2020-01-16-19_17_25.pdf

从监控看到的 duration 升级前后变化基本没有差别



这个是 internal sql 执行的 duration 上升,是内部的,应该不会影响应用的写入,我确认再确认一下为什么升级之后 internal 的 duration 上升

这种都有数量级的变化了,也没有影响?

看到应用的 duration 耗时变化不大,所以这个需要确认一下

Duration面板中 999/99/95/80 线升级前后变化不明显

您好:
1. 请在监控页面tidb—>distsql—>distsql duration 编辑edit


2. 在页面添加一行监控信息 add后,在空白处复制:

3. 展示成功后,如下展示internal语句,请选择升级时间段参考,如果历史数据被清理,展示当前也可以,多谢

4. 具体哪个sql duration上升了可能要debug看一下,也可以看下用户的slow log里面有没有IsInternal : true的sql语句,麻烦查看日志,多谢