tikv 监控中 gc worker 单个 tikv 高

监控插件安装不了。。

sxc.log (1.3 MB) 这是tidb日志

你好,

请根据业务确认下,数据更新是否集中在那几个 KV 上,或者数据分布不均匀。
可以上传下 grafana 监控中 tikv leader 和 region 的监控截图这边看下(overview - server port status 已上传下)。从上面的 cpu 的截图发现,可能存在类似情况。

很少有更新,大部分就是查询写入

现在是业务低峰

此时的 gc worker cpu 上传看下,时间与上面的 duration 时间保持一致

你好

  1. 确认下 0.106 tikv 的服务器配置是否与其他tikv 一致?可以提供下 服务器配置信息 overview - system info
  2. 检查下当前 0.106 的磁盘 io 情况,node export - disk 部分的监控。
  3. 上传下 tidb 监控中 gc 的相关监控截图

配置完全一样,这个节点是换的 在kv节点之间换来换去

这是24小时的情况

image
这个 tikv 节点的 io util 都很高呀,请问,tikv 节点的服务器配置都是相同的吗?是否都为 ssd 或者 nvme 的盘?如果当前磁盘 io 高。那 gc 时间可能会延长,建议检查下磁盘io 情况是否符合 tidb 线上标准。
image

目前对业务有影响吗?或者业务上游反馈吗。

fio 测试方法:

fio -ioengine=psync -bs=32k -fdatasync=1 -thread -rw=randwrite -size=10g -filename=/data1/deploy/fio_randwrite_test.txt -name=‘fio randwrite test’ -iodepth=4 -runtime=60 -numjobs=4 -group_reporting --output-format=json --output=fio_randwrite_result.json

fio -ioengine=psync -bs=32k -fdatasync=1 -thread -rw=randwrite -size=10g -filename=/data1/deploy/fio_randwrite_test.txt -name=‘fio randwrite test’ -iodepth=4 -runtime=60 -numjobs=4 -group_reporting --output-format=json --output=fio_randwrite_result.json

1 个赞

io应该是不满足要求的,我们使用的是阿里云的ssd

业务暂时不影响 就是怕升级之后高峰会有问题

现在是所有的kv节点io都高。。这是怎么回事 我现在业务低峰啊

云盘不是本地 ssd 是吧。

看下 overview - region health 监控。
确认下当前的集群的 topo,可以上传下 inventory 文件。