PD在进行coordinator is stopping时耗时过长,导致QPS跌零

今天升级也遇到了这个问题,3.0.19升级到4.0.16。
看了下pd leader正常切换,但是旧leader是最后restart的,存在大量http redirect请求,然而旧leader已经不是leader了,所以一直报错:

[2022/07/14 09:39:34.896 +08:00] [ERROR] [tso.go:202] ["logical part outside of max logical interval, please check ntp time"] [response="{\"physical\":1657762473398,\"logical\":2775816}"] [retry-count=89]
[2022/07/14 09:39:34.898 +08:00] [ERROR] [redirector.go:56] ["redirect but server is not leader"] [from=pd-10.62.184.61-2379] [server=pd-10.71.56.2-2379]

最终升级超时失败,还是要在低谷期升级尽可能规避业务高峰期防止pd 切换异常。
tiup升级流程也是否可以优化下,pd的升级过程中,实例重启应当设置较长的间隔,比如30s什么的,给请求一定的时间切换到newLeader,防止滚动升级时请求堆积在错误的pd上。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。