集群缩容pd报错，但是组件能够使用

Hacker_d5rmMGLJ · 2020 年2 月 14 日 10:40

为提高效率，提问时请提供以下信息，问题描述清晰可优先响应。

【TiDB 版本】：2.1.5
【问题描述】：目前部署了1tidb+3pd+1tikv，今天使用ansible缩容pd3的时候，滚动更新报错: pd2 rolling_update.yml TASK get PD name. msg:status code was 503:not [200]，service unavailable 但是在滚动更新完成后，使用pd-ctl通过pd2查询member也能返回正常结果，虽然不影响使用，但是报错原因不知道在哪里，望解答

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

不懂就问 · 2020 年2 月 14 日 13:57

根据给出的信息，推测可能是当时节点所在机器的负载变高或者网络出现短暂的异常，访问失败。pd-ctl -> member 显示信息正常就没问题，可以放心使用。

Hacker_d5rmMGLJ · 2020 年2 月 14 日 23:58

好的，谢谢！

GangShen · 2020 年2 月 15 日 05:07

Hacker_d5rmMGLJ · 2020 年2 月 15 日 06:38

cluster-overview 中 PD Role 统计信息为：count(delta(pd_tso_events{type=“save”,instance="$instance"}[1m])) 但是在 cluster-PD 中统计信息为：count(delta(pd_server_tso{type=“save”,instance="$instance"}[1m]))，这两个有什么区别呢？

zzzzzz · 2020 年2 月 15 日 13:33

这边应该是新旧监控的命名规则问题

Hacker_d5rmMGLJ · 2020 年2 月 16 日 06:43

需要怎么解决呢

Lucien-卢西恩 · 2020 年2 月 17 日 01:44

麻烦查看看一下这个 asktug 的问题

system · 2022 年10 月 31 日 19:05

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。