4.0测试集群无业务访问，但是IO提示很高。

dockerfile · 2020 年8 月 10 日 11:17

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：V4.0.2
【问题描述】：监控IO Util较高，当前集群并无业务请求。

IO监控图，右下角显示IO占用较高，依次为4台TiKV，1台Tiflash。
extra-peer-region-count和learner-peer-region-count 持续几天保持在2000多个。
似乎是在上周新增一台Tiflash节点后出现的。
请教一下，如何排查IO的问题。

来了老弟 · 2020 年8 月 10 日 13:58

集群拓扑发出来看下，可以看出集群节点分布，pdctl store 看下

dockerfile · 2020 年8 月 10 日 15:26

QQ%E6%88%AA%E5%9B%BE20200810232523

IO高的是所有kv节点（3，4，5，6）
以及Tiflash节点（7）

来了老弟 · 2020 年8 月 10 日 23:28

感谢反馈，辛苦上传下 tikv-detail、pd 的完整监控


打开 grafana 监控，先按 d 再按 shift+e 可以打开所有监控项。

(1)、chrome 安装这个插件https://chrome.google.com/webstore/detail/full-page-screen-capture/fdpohaocaechififmbbbbbknoalclacl

(2)、鼠标焦点置于 Dashboard 上，按 ?可显示所有快捷键，先按 d 再按 E 可将所有 Rows 的 Panels 打开，需等待一段时间待页面加载完成。

(3)、使用这个 full-page-screen-capture 插件进行截屏保存

dockerfile · 2020 年8 月 12 日 02:39

目前关闭了tidb和tiflash节点：
tiup cluster stop tidb-test -R tidb
tiup cluster stop tidb-test -R tiflash

dockerfile · 2020 年8 月 12 日 03:43

当前所有4个TiKV节点（一共4个）磁盘使用率都达到了 87%，我怀疑是不是触发了kv的机制在调度region？
所以TiDB和TiFlash都停用的情况下依旧有大量IO

dockerfile · 2020 年8 月 12 日 07:00

我重新将TiDB和TiFlash启动，同时移除所有Tiflash上的副本
alter table db-name.table-name set tiflash replica 0;

IO Util TiKV节点依然100%
iotop查看如下

读写主要来自以下TiKV进程：
–status-add~0 --config conf/tikv.toml --log-file /tidb-deploy/tikv-20160/log/tikv.log [rocksdb:low2]
–status-add~0160 --config conf/tikv.toml --log-file /tidb-deploy/tikv-20160/log/tikv.log [gc-worker]

dockerfile · 2020 年8 月 12 日 09:03

来了老弟 · 2020 年8 月 12 日 09:06

tikv 磁盘使用率超过 80%，建议扩容处理下，否则 pd 调度 region 会比较频繁，造成磁盘 io 比较高，如果非 ssd 可能情况更明显

dockerfile · 2020 年8 月 12 日 10:04

摘除TiFlash节点：

tiup cluster scale-in <cluster-name> --node 10.0.1.4:9000

通过pd-ctl查看已无此节点

pd-ctl store

监控面板显示还存在Tiflash节点

如何删除此已缩容节点？

来了老弟 · 2020 年8 月 12 日 14:46

正常显示，看下 pd-ctl store 应该已经没有 tiflash 节点了，如果需要删除这个，需要对 pd etcd 进行操作可以在 asktug 搜索下。