如果需要给tidb集群的物理机器升级硬件固件要重启,每台机器重启前需要对tidb集群设置什么参数

我看tikv超过30分钟会被踢出集群,这时候再加进来,之前存的数据会被覆盖吗,谢谢

这个行为是由 PD 参数 max-store-down-time 来控制的,默认值为 30 m 。当 tikv 失联超过 30m 后,PD 认为失联 store 无法恢复,PD 会在其他节点补充副本,相当于集群认为这个 tikv 已经不是集群的一员了。为了避免这种情况,可以将参数值调大,比如通过 pd-ctl 工具设置成 2h:

$ tiup ctl pd -u {pd_ip:port} -i
» config set schedule.max-store-down-time 2h

一台重启后,再重启下一台之前,需要什么命令查看集群的pd和tikv的状态?

1.可以通过 pd-ctl 工具查看 store 状态;
2.可以通过监控 overview 面板查看 Services Online 和 Offline 状态;
3.如果是 v4.0 版本,还可以通过 tiup cluster display 命令和 dashboard 来查看集群状态。

谢谢,是用pd-ctl查看每个store的状态是up就可以吗, 其中一台断电后,假如经过10分钟这台机器起来,如何判断每个region的数据是完整的,就是不需要迁移的?什么时候每个region的数据都是副本一致的?

1.如果 10 分钟内就起来,正常情况下 PD 会先把该 tikv 上的 region leader 调度到其他 tikv 上,然后等该 tikv 重新启动后再补 region 数据;
2.可以通过监控面板 overview -> PD -> Region health 来查看 region 的状态,通常情况下,pending 的 peer 应该少于 100,miss 的 peer 不能一直大于 0。