集群状态正常,没有节点下线的情况下,出现大量 regionMiss 的?

  • 【TiDB 版本】:v3.0.12
  • 【问题描述】:
    tidb.log日志中有大量的regionMiss

    监控中也有

    但集群状态正常,也没有节点下线,为什么会出现这么多的regionMiss?

监控还发现各个节点leader的数量在同个时间段抖动明显

  1. leader 抖动会导致 leader 迁移,所以会出现 regionmiss,麻烦反馈下 over-view,tidb,detail-tikv 的监控,我们看下抖动的时间段有什么问题,多谢。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

流量负载是什么样子的,存在大量的写入么?
写入的数据单个事务大小大么?

这是相关监控截图

您好,您反馈的日志信息是 9月1号 11:16 的,但是给的监控是按照天级别的,看不到具体这个时间的监控信息,要麻烦您取一下这个时间段前后半小时的监控,多谢。

以上是9月1号 11:16前后一段时间的监控,麻烦帮忙分析下

  1. 从监控看在问题发生时间附件,有一个大的 IO 占用
  2. 你的 store region 数量都达到 9万了,一般在2,3万比较合理
  3. 导致 raft store cpu 几乎达到瓶颈,默认参数为2,几乎打满
  4. 尝试开启静默region吧,参考以下帖子