4.0测试集群无业务访问,但是IO提示很高。

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:V4.0.2
  • 【问题描述】:监控IO Util较高,当前集群并无业务请求。

IO监控图,右下角显示IO占用较高,依次为4台TiKV,1台Tiflash。
extra-peer-region-count和learner-peer-region-count 持续几天保持在2000多个。
似乎是在上周新增一台Tiflash节点后出现的。
请教一下,如何排查IO的问题。

集群拓扑发出来看下,可以看出集群节点分布,pdctl store 看下

QQ%E6%88%AA%E5%9B%BE20200810232523

IO高的是所有kv节点(3,4,5,6)
以及Tiflash节点(7)

感谢反馈,辛苦上传下 tikv-detail、pd 的完整监控


打开 grafana 监控,先按 d 再按 shift+e 可以打开所有监控项。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上,按 ?可显示所有快捷键,先按 d 再按 E 可将所有 Rows 的 Panels 打开,需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

目前关闭了tidb和tiflash节点:
tiup cluster stop tidb-test -R tidb
tiup cluster stop tidb-test -R tiflash

当前所有4个TiKV节点(一共4个)磁盘使用率都达到了 87%,我怀疑是不是触发了kv的机制在调度region?
所以TiDB和TiFlash都停用的情况下 依旧有大量IO

我重新将TiDB和TiFlash启动,同时移除所有Tiflash上的副本
alter table db-name.table-name set tiflash replica 0;

IO Util TiKV节点依然100%
iotop查看如下

读写主要来自以下TiKV进程:
–status-add~0 --config conf/tikv.toml --log-file /tidb-deploy/tikv-20160/log/tikv.log [rocksdb:low2]
–status-add~0160 --config conf/tikv.toml --log-file /tidb-deploy/tikv-20160/log/tikv.log [gc-worker]

tikv 磁盘使用率超过 80%,建议扩容处理下,否则 pd 调度 region 会比较频繁,造成磁盘 io 比较高,如果非 ssd 可能情况更明显

摘除TiFlash节点:

tiup cluster scale-in <cluster-name> --node 10.0.1.4:9000

通过pd-ctl查看已无此节点

pd-ctl store

监控面板显示还存在Tiflash节点

QQ%E6%88%AA%E5%9B%BE20200812180313

如何删除此已缩容节点?

正常显示,看下 pd-ctl store 应该已经没有 tiflash 节点了,如果需要删除这个,需要对 pd etcd 进行操作可以在 asktug 搜索下。