【故障排查】高峰期TIDB同个物理库中一个逻辑库出现大量查询延迟

mixiu0996 · 2020 年3 月 26 日 16:14

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：3.0.7
【问题描述】：我们用一个TIDB物理库创建了12个逻辑库，做不同业务的负载，在晚间高峰期，一个业务突然出现大量接口异常，查询发现是这个业务的数据查询慢。其他的业务逻辑库都没有受到影响。这种情况应该怎么排查呢？

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

GangShen · 2020 年3 月 27 日 02:12

如果其他逻辑库没有受到影响，只有这个业务库有影响，那可以先看下慢日志中关于这个库的慢日志记录
查看慢日志当时的 SQL 运行时间是否真的比较慢，以及慢在哪个环节
慢日志中的 tidb_decode_plan(xxx) 函数记录的是对应 SQL 当时的执行计划，可以到 tidb 中执行 select tidb_decode_plan(xxx) 看下当时的执行计划是否正常

mixiu0996 · 2020 年3 月 30 日 17:24

没有特别慢或者特别多的慢查询，但是发现很多1S+时间的update，会是这个影响的么。

yilong · 2020 年3 月 31 日 02:35

晚上高峰期是由于只有这个库业务比较多，所以感受到受影响，还是其他库业务也很多，但是没有影响？
上传觉得慢的时间段一小时的监控信息，over-view，tidb，tikv-detail，disk-performance信息 (1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上，按 ?可显示所有快捷键，先按 d 再按 E 可将所有 Rows 的 Panels 打开，需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存