如果需要给tidb集群的物理机器升级硬件固件要重启，每台机器重启前需要对tidb集群设置什么参数

Hacker_Of3dOqp9 · 2021 年1 月 12 日 03:12

我看tikv超过30分钟会被踢出集群，这时候再加进来，之前存的数据会被覆盖吗，谢谢

这道题我不会 · 2021 年1 月 12 日 04:58

这个行为是由 PD 参数 max-store-down-time 来控制的，默认值为 30 m 。当 tikv 失联超过 30m 后，PD 认为失联 store 无法恢复，PD 会在其他节点补充副本，相当于集群认为这个 tikv 已经不是集群的一员了。为了避免这种情况，可以将参数值调大，比如通过 pd-ctl 工具设置成 2h：

$ tiup ctl pd -u {pd_ip:port} -i
» config set schedule.max-store-down-time 2h

Hacker_Of3dOqp9 · 2021 年1 月 12 日 05:51

一台重启后，再重启下一台之前，需要什么命令查看集群的pd和tikv的状态？

这道题我不会 · 2021 年1 月 13 日 01:51

1.可以通过 pd-ctl 工具查看 store 状态；
2.可以通过监控 overview 面板查看 Services Online 和 Offline 状态；
3.如果是 v4.0 版本，还可以通过 tiup cluster display 命令和 dashboard 来查看集群状态。

Hacker_Of3dOqp9 · 2021 年1 月 13 日 09:26

谢谢，是用pd-ctl查看每个store的状态是up就可以吗，其中一台断电后，假如经过10分钟这台机器起来，如何判断每个region的数据是完整的，就是不需要迁移的？什么时候每个region的数据都是副本一致的？

这道题我不会 · 2021 年1 月 13 日 09:36

1.如果 10 分钟内就起来，正常情况下 PD 会先把该 tikv 上的 region leader 调度到其他 tikv 上，然后等该 tikv 重新启动后再补 region 数据；
2.可以通过监控面板 overview -> PD -> Region health 来查看 region 的状态，通常情况下，pending 的 peer 应该少于 100，miss 的 peer 不能一直大于 0。