TiDB集群可靠性测试

有没有测试过,整个TiDB集群使用的服务器。集体断电这种故障场景。TiDB集群还能正常起来不?

:upside_down_face: 可以搜索 chaos mesh;

之前有了解过,tidb每个版本都会在其自有混沌集群内验证

谢谢。因为前几天,我们有个机房突然断电。ceph集群丢失了少许数据。所以就想到了tidb在这种情况下会怎样?

你说的整个集群突然断电的情况没测试过,不过就算出问题也有解决方法。毕竟只要三个组件:tidb,tikv,pd都正常就能正常使用。而tikv和pd都有故障恢复的方案。
我在poc的时候测试过给某个tidb和tikv断网和断电,都问题不大。

大佬,有环境测试下哈。直接跳闸。 :muscle:

:rofl: 没办法这么测试

这中测试,很难搞哟,除非本地搞几个测试服务器。然后直接关电源。

我们在用户那边的机房,过等保装修,就直接给断电了,接电后集群自动启动。没有出现异常。