生产TiKV存储不均导致一个节点满了宕机起不来

抱歉,根据这个日志没有定位到问题,能否提供所有节点的 rocksdb.info.* 日志,麻烦了,非常多谢。

当时有大量rockdb的日志,我看了下都是报的no space left on device,当时为了起来服务,都删除了,从上面的监控能看出来吗,我从监控看到未宕机前(晚上10点左右) 有大量compaction,重启后(中午11点)也有大量compaction





看这个图,当时compaction pending中的就有240G,但实际总数据量(算上历史数据)也就130G左右

  1. 要日志的目的是看超大 sst 文件的来源。没有日志很难确认。
    从监控来看,发生过 l0 文件过多的 stall,这种情况下根据经验,很容易发生多次 l0 -> l0 的 compaction,从而产生超大 sst 文件。但是还是不能排除是 leader 发过来的 snapshot 过大的原因。
  2. 目前可能无法准确确认,下次如果遇到,麻烦帮忙收集所有的 rocksdb.info.* 日志,多谢。
1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。