TiKV如何处理脑裂的情况

alfred · 2022 年8 月 14 日 10:16

为提高效率，请提供以下信息，问题描述清晰能够更快得到解决：

【概述】场景 + 问题概述

【应用框架及开发适配业务逻辑】

【背景】做过哪些操作

【现象】业务和数据库现象

【问题】当前遇到的问题

【业务影响】

【TiDB 版本】

【附件】相关日志及监控（https://metricstool.pingcap.com/)

在election time这段时间内，即使 region Leader本身故障（比如发生了网络分区）也仍然作为region Leader，这时数据读取的方式是Lease read，即local read，
那么这时数据写入这个region Leader还会成功吗？还如何与其它节点region协同？

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

啦啦啦啦啦 · 2022 年8 月 14 日 10:38

可以了解下raft算法
https://docs.pingcap.com/zh/tidb/dev/tidb-storage#raft-协议

突破边界 · 2022 年8 月 14 日 10:39

不会成功，因为log replication不会获得大多数节点的响应

alfred · 2022 年8 月 14 日 12:43

这是raft协议保证的

xfworld · 2022 年8 月 14 日 14:38

保证奇数节点数就行了，如果是偶数节点，可能会出现副本不全的情况，导致集群无法正常工作

TiDBer_rvITcue9 · 2024 年3 月 13 日 01:21

raft协议

饭光小团 · 2024 年3 月 13 日 02:58

raft 协议多数派表决，会处理网络分区的问题

烂番薯0 · 2024 年3 月 13 日 03:09

多副本，还有投票机制，leader会投票的

DBAER · 2024 年3 月 19 日 00:59

写入的话，需要大多数节点接受日志，才能返回写入成功

Soysauce520 · 2024 年3 月 19 日 01:19

也需要关注pd和哪些tikv在一个网络分区。

这里介绍不了我 · 2024 年3 月 19 日 10:30

主要是raft保证的

YuchongXU · 2024 年3 月 19 日 11:52

raft选主

chris-zhang · 2024 年3 月 19 日 23:42

可以先了解下 raft协议

xiaohaozifeifeifei · 2024 年3 月 28 日 11:52

TiKV处理脑裂的情况主要依赖于Raft协议。在election time这段时间内，即使region Leader本身故障（比如发生了网络分区）也仍然作为region Leader，这时数据读取的方式是Lease read，即local read。这种方式可以保证线性一致性，即在某个时间点我们写入了一个值，那么在这个时间点之后，我们的读一定能读到这个值，不可能读到这个时间点之前的值[*]。

另外，如果发生脑裂，客户端请求到了少数集群，不会收到Ack，再次尝试请求，此时请求了多数集群，会收到Ack。当网络恢复后，少数集群会自动成为 Follower[*]。

如果大于半数的pd节点损坏，我们可以直接参照节点全部损坏的场景去做，或者按照脑裂的方式都是可以的，因为大于半数节点损坏之后集群就无法选出leader了，或者也可以按照脑裂的样例单独启动一个节点再对其他的节点进行缩容扩容处理[*]。

呢莫不爱吃鱼 · 2024 年4 月 7 日 00:24

raft协议可以保证

TiDBer_QYr0vohO · 2024 年4 月 7 日 07:06

raft协议

Swan · 2024 年4 月 7 日 07:35

学习了，感谢分享

小于同学 · 2024 年4 月 10 日 01:20

不会成功，因为log replication不会获得大多数节点的响应

心急吃不了热豆腐 · 2024 年4 月 12 日 01:57

raft

system · 2024 年6 月 11 日 01:58

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。