一个tikv实例cpu过高,貌似不是热点

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:3.0.11
  • 【问题描述】:
    环境:3台服务器,每台服务器2个kv实例,共6个实例

现象:一个kv实例某一时段cpu很高,导致那个时段查询很慢,但是看pd热点监控信息,并不高

以下是监控:

TiDB监控:

tidb01

tidb04 tidb05

TiKV监控:

tikv01 tikv02

tikv04 tikv08 tikv09 tikv10

PD热点监控:

pd01 pd02 pd03 pd04 pd05 pd06

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出打印结果,请务必全选并复制粘贴上传。

  1. 热点问题的排查可以参考 TiDB 常见问题处理 - 热点 ,除了监控信息之外还可以通过 pd-ctl hot read 和 pd-ctl hot write 来查看返回的 region 所在的是 store 是否与 CPU 高的机器一致。
  2. 从当前提供的监控图,可以看到14:30 ~ 15:30 之间集群的 Duration 比较异常,可以集中看下这个时间段的监控。以及 TiKV-detail 的 监控里面选择 CPU 异常的 instances 来集中排查其他监控项看下。

您好 已经看了过这篇热点处理文章了,和这里面说的基本一致,这里说热点调度被抢占在2.1.14解决了,但是我们的版本是3.0.11,还有就是我在主题里发的PD上监控指标Hot read Region’s peer distribution那个时段里的每个Kv实例读取leader都很低相比其他时段

截图自这篇热点文章:

这个是那个时段中文章中所说的pd中调度的监控:

1、看 tidb 的监控 connection count 正常水平都高,业务压力或者访问逻辑是否有变化?另外,这些 SQL 是大查询吗?

2、如果方便的话能否提供下,异常时间段的 TiDB 以及 TiKV-details 的监控,便于分析问题。导出方式如下:

1)chrome 安装这个插件 https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

2)鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

3)使用这个 full-page-screen-capture 插件进行截屏保存

3、如果不能提供所有的监控,那么希望提供下出现问题的时间段那个 cpu 高的 store 节点下述监控面板:

1)选择目标 store 节点

2)上传下述监控面板信息

image