集群监控分析

【 TiDB 使用环境】生产环境
【 TiDB 版本】V7.1.1
【复现路径】查看dashboard概况菜单时,发现io监控图中3个tikv节点的读性能差距明显,请问是不是读热点造成的,图片中是不是没有发挥负载均衡的作用?感觉有一个机器好像没有工作,其他两个承担的负载差距也比较大
【遇到的问题:问题现象及影响】
【资源配置】
【附件:截图/日志/监控】

  1. 整个集群的数据量大吗?还是很小?
    看看leader分布均衡吗?tidb 默认是在leader上进行读写的
  2. 如果怀疑热点的问题,那就发下热力图,不过你这个量(read 平均才20K),可能热力图上也体现不出来。
1 个赞

数据量不大,所有表加起来数据量才36万条左右


  1. 整个集群才11个region,leader分布情况是 5 ,5, 1,再去掉系统用的一些region,可以理解您的集群里就没啥数据,可以多加点表,数据,量太少,没什么参考价值(没有绝对均衡)。
  2. 热力图上的黄点,是热点读,但是数据量比较少,参考意义不大。可以跑一段时间的测试,比如十分钟,半小时一小时,这样会比较明显。
    具体处理方法可参考: TiDB 热点问题处理 | PingCAP 文档中心

kb级别数据就别看监控了,跑个压力测试同时再看

1 个赞

你这有个tikv才1个leader,他肯定没有啥io使用啊,上面没数据,多造点数据,然后查一下,就会有io使用了。。。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。