PD在进行coordinator is stopping时耗时过长，导致QPS跌零

realcp1018 · 2022 年7 月 14 日 04:13

今天升级也遇到了这个问题，3.0.19升级到4.0.16。
看了下pd leader正常切换，但是旧leader是最后restart的，存在大量http redirect请求，然而旧leader已经不是leader了，所以一直报错：

[2022/07/14 09:39:34.896 +08:00] [ERROR] [tso.go:202] ["logical part outside of max logical interval, please check ntp time"] [response="{\"physical\":1657762473398,\"logical\":2775816}"] [retry-count=89]
[2022/07/14 09:39:34.898 +08:00] [ERROR] [redirector.go:56] ["redirect but server is not leader"] [from=pd-10.62.184.61-2379] [server=pd-10.71.56.2-2379]

最终升级超时失败，还是要在低谷期升级尽可能规避业务高峰期防止pd 切换异常。
tiup升级流程也是否可以优化下，pd的升级过程中，实例重启应当设置较长的间隔，比如30s什么的，给请求一定的时间切换到newLeader，防止滚动升级时请求堆积在错误的pd上。

system · 2022 年10 月 31 日 19:10

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。