【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.5.5
【复现路径】原tikv3个节点,新扩容1个节点
【遇到的问题:问题现象及影响】新扩容的tikv资源CPU使用率要比其它3个节点高
【资源配置】
【附件:截图/日志/监控】
看下region均衡完成了吗?
leader和 region 都完成了
再观察一段时间吧,是不是当前业务比较繁忙
在同步数据吧
都完成了
快一周了
看一些region 分布呢? 要不就就可以看一下dashboard 针对这个tikv 节点 看一下 top sql, 或者手动收集一下这个节点的高级调试中手动调试,收集cpu 相关的,主要看火焰图哪个函数高,但是应该会性能抖动
或者你直接 登录服务器 top 和 perf top -p 'tikv pid ’ 看一下哪个函数占比多
新扩容的机器配置是和前面三个节点一样的吗
Region分布是均匀的吗,看有没有数据倾斜
兄弟,你这个是正常的,负载没问题。那个grafana中cpu图表是结合了所有cpu vcore计算的。例如10.0.6.72(128 vCore)那么他所有核数满载就是128*100%,当前监控显示1442%,你拿1442/128=11.3,就是这台机器的cpu利用率(以满载100%为限制)。新增加的机器10.0.6.93(176 vCore),就是2732/176=15.5,所以基本上每台机器负载是差不多的。
1 个赞
看看热力图,是不是集中在某个region有热点
看你机器配置,应该是新扩容的cpu core数要比老的多一点,所以他占用的cpu core数也要多一点,tikv有些线程占用的cpu core的上限是基于你的总core数来限制的。
麻烦看下TOP-SQL中的延时也比较大,这个会不会影响集群的性能?
会,鼠标放到最高的那个上面看下是具体sql
节点流程不均匀