一个集群tikv的IO差异大

前两天突然这样了,十分不解。
136服务器pd是leader
【TiDB 版本】
V4.0.0
【问题描述】


1 个赞
  1. tiup cluster display 看下集群的部署拓扑是怎么样的?tikv 和 pd 是混部的么
  2. 可以先看下监控的内容,看下 IO 上升的对应时间见,有没有别的什么指标也对应上升了

tidb-dc tidb v4.0.0 /home/tidb/.tiup/storage/cluster/clusters/tidb-dc /home /tidb/.tiup/storage/cluster/clusters/tidb-dc/ssh/id_rsa
tiup cluster display[tidb@crmdc136 ~]$ tiup cluster display tidb-dc
Starting component cluster: /home/tidb/.tiup/components/cluster/v1.1.1/tiup-cl uster display tidb-dc
tidb Cluster: tidb-dc
tidb Version: v4.0.0
ID Role Host Ports OS/Arch Status Data Dir Deploy Dir


192.168.0.136:9093 alertmanager 192.168.0.136 9093/9094 linux/x86_64 Up /data/tidb-data/alertmanager-9093 /data/tidb-deploy/alertmanager-9093
192.168.0.148:3000 grafana 192.168.0.148 3000 linux/x86_64 Up - /data/tidb-deploy/grafana-3000
192.168.0.136:2379 pd 192.168.0.136 2379/2380 linux/x86_64 Up|L|UI /data/tidb-data/pd-2379 /data/tidb-deploy/pd-2379
192.168.0.147:2379 pd 192.168.0.147 2379/2380 linux/x86_64 Up /data/tidb-data/pd-2379 /data/tidb-deploy/pd-2379
192.168.0.148:2379 pd 192.168.0.148 2379/2380 linux/x86_64 Up /data/tidb-data/pd-2379 /data/tidb-deploy/pd-2379
192.168.0.147:9090 prometheus 192.168.0.147 9090 linux/x86_64 Up /data/tidb-data/prometheus-9090 /data/tidb-deploy/prometheus-9090
192.168.0.136:4000 tidb 192.168.0.136 4000/10080 linux/x86_64 Up - /data/tidb-deploy/tidb-4000
192.168.0.147:4000 tidb 192.168.0.147 4000/10080 linux/x86_64 Up - /data/tidb-deploy/tidb-4000
192.168.0.148:4000 tidb 192.168.0.148 4000/10080 linux/x86_64 Up - /data/tidb-deploy/tidb-4000
192.168.0.142:9000 tiflash 192.168.0.142 9000/8123/3930/20170/20292/8234 linux/x86_64 Up /data/tidb-data/tiflash-9000 /data/tidb-deploy/tiflash-9000
192.168.0.136:20160 tikv 192.168.0.136 20160/20180 linux/x86_64 Up /data/tidb-data/tikv-20160 /data/tidb-deploy/tikv-20160
192.168.0.147:20160 tikv 192.168.0.147 20160/20180 linux/x86_64 Up /data/tidb-data/tikv-20160 /data/tidb-deploy/tikv-20160
192.168.0.148:20160 tikv 192.168.0.148 20160/20180 linux/x86_64 Up /data/tidb-data/tikv-20160 /data/tidb-deploy/tikv-20160

1 个赞

2监控指标我看了,没有什么特殊的地方

1 个赞

你这个是生产环境还是测试环境,服务器配置如何啊

生产环境,每台的IOPS在20k左右,目前只有一台的IO高,高的那台是PD leader

1 个赞

vdb 是哪快盘,pd 不会消耗很多IO

tikv部署vdb上,包含程序文件和业务数据

1 个赞

可以在 IO 高的时间段,通过 iotop 看下是什么进程占用 IO 资源比较多。

reload、重启后正常,结案了

如果持续观察仍然有问题,请继续跟帖~