抱歉, 我只会在某一段时间看 TUG 的帖子, 有时候回消息会出现不及时的情况
现象 :
从 store region score 看, PD 已经识别到 tikv-24 有很高的 score 了, 按理说会往下降低;
但是这个时间段, region score 还在涨, 说明磁盘空间使用在涨, 不像是 PD 的主动行为
region size 很低, 说明这上面的真实数据少(reigon 少), 而且还在进一步减少
region count 很低, 而且还在进一步减少
半个小时时间 磁盘可用空间骤降
分析:
-
v5
egion-score-formula-version
应该已经用 v2 了吧, 可以确定下 --》 专栏 - PD 如何调度 Region | TiDB 社区 -
从 v2 的大致公式算(高版本公式有改), 其实无论 v1 还是 v2 其中主要参考的都是磁盘空间
v2 更高版本还会参考写入情况, v5.0.4 应该还没有这个功能 -
从现象上看, 更符合之前老师们的分析, 日志占用或者其他应用有消耗这部分空间
从 metrics 看, 还是有磁盘使用不正常的情况, 可以 diff 一下 正常 tikv 和 这个 tikv 数据目录下各路径下的占用差异, 缩小范围
但是不知道现在是否还能从监控上看到同样的现象, 如果不能, 可以在关键路径上加 crontab du -sh, 到时候再追溯