Clinic 无法采集和本地诊断异常集群

Bug 反馈
清晰准确地描述您发现的问题,提供任何可能复现问题的步骤有助于研发同学及时处理问题
【 TiDB 版本】cinic
【 Bug 的影响】

【可能的问题复现步骤】
1、集群多节点 把pd 都stop
clinic将不可用,(tiup diag collect )

2、 集群拓扑中如果任一个节点异常掉线或stop(pd正常的情况下)
tiup diag collect 正常
tiup diag check 报错

【看到的非预期行为】

【期望看到的行为】

可以诊断异常集群

【相关组件及具体版本】
tidbv5.x 、tidb v6.0.0 上使用clinic 收集和诊断tidb集群

问题1 ,因为 collect 需要通过 PD 获取 cluster id ,如果 PD 不能连接,收集会失败。
问题2,应该是 check 逻辑的问题,对节点异常情况处理不好,能否帮忙提供这个采集的数据(上传数据到 clinic server 然后分享链接)?

针对问题2:
任一节点(pd正常的情况下)的采集数据 已经上传
https://clinic.pingcap.com.cn/portal/#/orgs/62/clusters/7090789276609135963

能否在pd异常的情况下 也能收集并check。比如提示 pd异常

PD 异常时,可以进行数据采集。checker 不能执行是因为目前判断规则基于 tidb 版本,pd 异常时拿不到准确的版本信息,没法做规则判断。
后续会加上组件异常的提示。

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。