【 TiDB 使用环境】 测试
【 TiDB 版本】v7.5.3
【复现路径】扩容tikv实例后可以通过监控region来判断恢复的速度,但是有什么指标确定已经恢复完了呢? 这块是有系统试图或者其他的手段判断出来么
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
看Region health监控面板,没有pending peer或极少的时候就平衡了。
- Region health:集群所有 Region 的状态。通常情况下,pending 或 down 的 peer 应该少于 100,miss 的 peer 不能一直大于 0,empty Region 过多需及时打开 Region Merge
2 个赞
查询这个指标不是他精准,还有其他的办法么
看pd里的balance面板,有leader数和peer数分布,均衡就好了。你发的图里显示算是均衡的,看region health也可以验证的。
在grafana查看 Region 的状态,包括 Region 的健康状况、Leader 分布情况等。所有 Region 都处于健康状态,并且没有异常的 Leader 缺失,可以作为恢复完成的一个信号
主要的过程就是复制region,设置leader,实时的,好像没有到哪个位点,哪个时间完成的概念
1、pd-- region health面板中pending-peer-region-count降为0;
2、pd-- operator–Schedule operator create面板中,balance-region降为0.
看 PD 面板,有个上线进度,还可以看 region 平衡情况
像你这种已经平行的基本就是扩容完成了,也不会说均衡的就一点不差,或者看看pd-schedule面板里面balance region movement,一般均衡完了,就是0左右了
PD 监控里看一下
pd的api接口能拿到这个数据么,我需要搜搜
PD 监控中:
- 查看 region 和 leader score,差不多就 OK
- 有没有大量的 balance region 调度生成,消失了的话也可以侧面印证。