tikv监控一直有很多异常,详情可以看截图

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:2.13
  • 【问题描述】:tikv监控一直有很多异常,详情可以看截图

请参考文档检查下对应的原因,多谢
https://pingcap.com/docs-cn/stable/alert-rules/

  1. 检查网络是否通畅。
  2. 检查远端 TiKV 是否挂掉。
  3. 如果远端 TiKV 没有挂掉,检查压力是否太大,参考 TiKV_channel_full_total 处理方法
    是看这个处理吗

是的,请按照此排查,多谢。



这个是监控截图,没看出来明显的问题,帮看下,谢谢

  1. 看截图是当前的监控信息吗?
  2. 可以先选定一个告警时间和告警的store,再按照排查顺序排查
  3. 如果觉得没有问题,麻烦把告警时间对应的排查监控都上传下,包含告警信息,保证一致,多谢。




这个时间有对应的

  1. 麻烦上传 detail-tikv 的完整监控,多谢。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存





网站打不开,我重新上传了完整清晰的监控

上传的监控不太完整

麻烦截取一下完整的 TiKV-Details 监控面板的监控,安装 chrome 插件的话需要科学上网之后进行安装
以及提供一下机器配置及集群拓扑信息

另外有检查过 pd 与 tikv 之间的网络连接吗?

试了多次没法科学上网
pd与tikv通过ping 是没有什么延时的都是内网网段
集群结构是3tidb/3台服务器,3pd/3台服务器,10tikv/5台服务器。

  • Raftstore 线程太忙,或者因 I/O 而卡住。可以看一下 Raftstore 的 CPU 使用情况。
  • TiKV 过忙(CPU、磁盘 I/O 等),请求处理不过来。所以需要 tikv 监控看下,这边可以找下网页截图的工具。

可以根据此报警解决方法排查下,看是否可以