集群缩容pd报错,但是组件能够使用

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:2.1.5
  • 【问题描述】:目前部署了1tidb+3pd+1tikv,今天使用ansible缩容pd3的时候,滚动更新报错: pd2 rolling_update.yml TASK get PD name. msg:status code was 503:not [200],service unavailable 但是在滚动更新完成后,使用pd-ctl通过pd2查询member也能返回正常结果,虽然不影响使用,但是报错原因不知道在哪里,望解答

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

根据给出的信息,推测可能是当时节点所在机器的负载变高或者网络出现短暂的异常,访问失败。pd-ctl -> member 显示信息正常就没问题,可以放心使用。

好的,谢谢!

:+1::+1::+1:

cluster-overview 中 PD Role 统计信息为:count(delta(pd_tso_events{type=“save”,instance="$instance"}[1m])) 但是在 cluster-PD 中 统计信息为:count(delta(pd_server_tso{type=“save”,instance="$instance"}[1m])),这两个有什么区别呢?

这边应该是新旧监控的命名规则问题

需要怎么解决呢

麻烦查看看一下这个 asktug 的问题