5.0.4 版本 某个节点tikv oldest snapshot duration 保留N天导致磁盘打满

抱歉, 我只会在某一段时间看 TUG 的帖子, 有时候回消息会出现不及时的情况

现象 :
从 store region score 看, PD 已经识别到 tikv-24 有很高的 score 了, 按理说会往下降低;
但是这个时间段, region score 还在涨, 说明磁盘空间使用在涨, 不像是 PD 的主动行为

region size 很低, 说明这上面的真实数据少(reigon 少), 而且还在进一步减少

region count 很低, 而且还在进一步减少

半个小时时间 磁盘可用空间骤降

分析:

  1. v5 egion-score-formula-version 应该已经用 v2 了吧, 可以确定下 --》 专栏 - PD 如何调度 Region | TiDB 社区

  2. 从 v2 的大致公式算(高版本公式有改), 其实无论 v1 还是 v2 其中主要参考的都是磁盘空间
    v2 更高版本还会参考写入情况, v5.0.4 应该还没有这个功能

  3. 从现象上看, 更符合之前老师们的分析, 日志占用或者其他应用有消耗这部分空间

从 metrics 看, 还是有磁盘使用不正常的情况, 可以 diff 一下 正常 tikv 和 这个 tikv 数据目录下各路径下的占用差异, 缩小范围
但是不知道现在是否还能从监控上看到同样的现象, 如果不能, 可以在关键路径上加 crontab du -sh, 到时候再追溯