tikv节点启动报错

启动tikv 的时候报错:


查看当前region的状态

看上去可能是磁盘问题~

你做过升级操作吗?

1 个赞

sst 文件损坏过

sst 文件损坏做过修复操作,下线之前应该把有问题节点的leader 先迁移走吧?

这个节点出问题了,销毁重建吧。如果集群只坏了这一台机器,放心大胆的执行store delete 就行。等tombstone后,删除这个节点的数据目录,重启tikv

节点损坏,如果只有这一个损坏,直接执行store delete, 等节点tombstone后,删除tikv目录,重启tikv,就完成了重建了。

重新初始化会不会把集群夯住

确定只坏一个的话,随便搞。

现在是坏了3个,扩容了两个

一共几个节点?

算上扩容的两个节点一共是13个节点,现在有3个节点起不来,9个节点up

这样的话有点危险:
https://docs.pingcap.com/zh/tidb/v7.1/pd-control#根据副本-store-id-过滤-region
检查下这俩 tikv 上多少 region 的 2 个副本在上面。

小于半数还好,缩容的时候会自动迁移leader。

应该是副本数小于半数。不是节点数小于半数。

等待大佬出现,学习下 :+1:

集群是几副本

kon大说的不严谨哈。
并不是说9个tikv坏3个就没问题。
假如说9个tikv分了3组,坏掉的3个都属于同一组,那没问题。
如果没有分3组,是9组。那可能任意2个tikv上会出现同一个region的2个副本,坏2个节点这个region就没法用了。

:sweat_smile:确实,我上面说的是有问题。

集群是3副本,但是现在down掉的节点上还存在部分leader ,现在tikv节点起不来了

目前的情况是,坏了的3个tikv 上,打了标签,有2个节点是同一个rack上的,而且down 掉的3个节点上都有leader ,有疑问的问题:如果一个tikv节点down 掉,不是会有补副本,leader 迁移的动作吗?为什么还有部分的leader 没有迁移出去