tikv 故障副本状态变化

【 TiDB 使用环境】 测试
【 TiDB 版本】v7.5.3
【复现路径】6台tikv服务器,每台1个tikv实例【store】,如果故障了一台服务器后,所故障的tikv实例【store】状态变化过程

从Up->Disconnected->Down,如果没有人工介入的话,等一段时间会变成Tombstone么?还是说Down状态的store必须要有人工介入呢,再把Down改成Offline,最后自动会变成Tombstone?这块有哪位大神给讲解下呢?

【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

看官方的课程好了,会有更多的收获,参考下截图:

https://learn.pingcap.cn/learner/course/120005
https://learn.pingcap.cn/learner/player/120012

不会变成tombstone,只有手动下线才会进入offline。
通过使用 pd-ctl 可以查看到 TiKV Store 的状态信息。TiKV Store 的状态具体分为 Up,Disconnect,Offline,Down,Tombstone。各状态的关系如下:

  • Up:表示当前的 TiKV Store 处于提供服务的状态。
  • Disconnect:当 PD 和 TiKV Store 的心跳信息丢失超过 20 秒后,该 Store 的状态会变为 Disconnect 状态,当时间超过 max-store-down-time 指定的时间后,该 Store 会变为 Down 状态。
  • Down:表示该 TiKV Store 与集群失去连接的时间已经超过了 max-store-down-time 指定的时间,默认 30 分钟。超过该时间后,对应的 Store 会变为 Down,并且开始在存活的 Store 上补足各个 Region 的副本。
  • Offline:当对某个 TiKV Store 通过 PD Control 进行手动下线操作,该 Store 会变为 Offline 状态。该状态只是 Store 下线的中间状态,处于该状态的 Store 会将其上的所有 Region 搬离至其它满足搬迁条件的 Up 状态 Store。当该 Store 的 leader_countregion_count (在 PD Control 中获取) 均显示为 0 后,该 Store 会由 Offline 状态变为 Tombstone 状态。在 Offline 状态下,禁止关闭该 Store 服务以及其所在的物理服务器。下线过程中,如果集群里不存在满足搬迁条件的其它目标 Store(例如没有足够的 Store 能够继续满足集群的副本数量要求),该 Store 将一直处于 Offline 状态。
  • Tombstone:表示该 TiKV Store 已处于完全下线状态,可以使用 remove-tombstone 接口安全地清理该状态的 TiKV。

看来我还得模拟测试下,哈哈,谢谢了

把超时时间调整下,20分钟就测试完了

down状态不会自动变成tombstone