我开头提供的信息缺什么内容吗?为什么非要给你讲个故事才能好好谈问题呢?
在你看来,全天下的tidb都运维在专家手里面。
好吧,你爱听故事,就给你编个合理的故事说一下为什么会出这么扯淡的事儿。
集群有100+tikv,挂了1台物理机,磁盘损坏,无法恢复。然后中间负责搭建集群的人离职了,新接手的还在学习。过了几个月,又挂了1台物理机,又是磁盘损坏,就到了我说的场景了。
满意了么爱听故事的朋友
我开头提供的信息缺什么内容吗?为什么非要给你讲个故事才能好好谈问题呢?
在你看来,全天下的tidb都运维在专家手里面。
好吧,你爱听故事,就给你编个合理的故事说一下为什么会出这么扯淡的事儿。
集群有100+tikv,挂了1台物理机,磁盘损坏,无法恢复。然后中间负责搭建集群的人离职了,新接手的还在学习。过了几个月,又挂了1台物理机,又是磁盘损坏,就到了我说的场景了。
满意了么爱听故事的朋友
研究这个是有意义的,我的理解是如果一个100节点的集群,按三副本策略,只要同时挂掉其中两个节点就可能导致集群部分表丢失数据,实际100节点同时挂掉两个节点的可能性还是很大的。
后来我建议他们按label分区了,3个一组。这样同一个区的挂2个也没问题。