3.0.3升级3.0.8 PD监控页面2个节点角色信息都是leader

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

  1. edit 编辑 PD role 面板,将 Queries 表达式更改为 delta(pd_server_tso{type=“save”,instance="$instance"}[1m])
  2. 点击左侧的 Visualization 选项,将 Value Mappings 设置更改为 range to text
  3. 退出并保存变更

之前leader转为follower的这个节点,监控还会存在是吗?不再像3.0.3那样pd发生切换,原leader节点删除,监控页面只展示新leader节点信息了么?

目前如果之前节点是 leader,切换后变为 follower,可以看下 pd role 的公式的信息:

这里有2个值

可能我问题没有描述清楚,在3.0.3的版本中,PD leader发生切换之后 ,instance实例信息只会显示新的leader节点IP,而没有之前老的leader节点信息IP。现在是2个都有,这是新的改动设定 还是?

1、在之前的版本中,如果 pd 没有切换过,那么这个列表会只显示一个 ip。当 pd 的 leader 发生切换后,在 instance 列表中既会显示新 leader 的 ip,也会显示老 leader 现在的 follower 的 ip。

2、升级到 3.0.8 后,pd role 的表达式有问题,内部已经反馈,并进行确认是否是 bug。

3.0.3不是这样的设定的。。。我们prod发生过3次pd的切换,这里的值只有一个。所以当时3.0.8升级完成之后,检查监控 看到2个IP 我才会点一下 看到2个leader的问题。3次PD切换都找过你们的陶政大佬。。。他都有记录的。:rofl:

稍等,我这里验证下 3.0.3 版本

1、新搭建 3.0.3 环境

pd 的拓扑结构如下:

240 leader

239 follower

241 follower

2、pd leader 切换前 grafana 面板只显示 240

3、手动 stop 240 上的 pd 后,239 为新 leader

4、pd leader 切换后 grafana 面板显示 239 的同时也显示 240

经测试验证,切换后,grafana 会保留原 pd leader 和现 leader 信息,没有复现你上边提到的情况。

如果可以请你那边提供下 pd 切换前后 grafana 显示的 instance 相关的信息,我们内部再确认下,谢谢~

日志太大了。。找陶政老哥转您了。

这是切换2次之后的监控图。如果按您上面的回复, 应该有23这个节点的信息的。

请问 v3.0.3 版本的 TIDB 集群切换 PD 前后,有没有在 Prometheus 中清理数据 ? 或者单独清理过 PD 的监控数据。

没有清理过,切换前后没有动过相应的监控。

您好,我这边复现和上面同事的情况一样。暂时没出现你上面提到的情况。我们看下日志反馈下。