TiDB Dashboard 集群信息中的主机页面访问失败

OneData · 2020 年8 月 5 日 03:38

背景

版本信息

TiDB Version: v4.0.4
TiUP Version: v1.0.8

环境信息

TiDB 节点
10.129.128.125
10.129.128.126
PD 节点
10.129.128.127
10.129.128.128
10.129.128.129
TiKV 节点
10.129.128.130
10.129.128.131
10.129.128.132

扩缩容操作

1. 增加 2 个新的 PD

配置 scale-out-pd.yaml

pd_servers:
  - host: 10.129.128.125
    ssh_port: 22
    name: pd-10.129.128.125-2379
    client_port: 2379
    peer_port: 2380
    deploy_dir: /data/tidb/tidb-deploy/pd-2379
    data_dir: /data/tidb/tidb-data/pd-2379
    log_dir: /data/tidb/tidb-log/pd-2379
  - host: 10.129.128.126
    ssh_port: 22
    name: pd-10.129.128.125-2379
    client_port: 2379
    peer_port: 2380
    deploy_dir: /data/tidb/tidb-deploy/pd-2379
    data_dir: /data/tidb/tidb-data/pd-2379
    log_dir: /data/tidb/tidb-log/pd-2379

执行 PD 扩容操作

tiup cluster scale-out test-tidb-prod scale-out-pd.yaml --user root -i /home/tidb/.ssh/id_rsa

2. 缩容 2 个老的 PD 节点

tiup cluster scale-in test-tidb-prod --node 10.129.128.128:2379
tiup cluster scale-in test-tidb-prod --node 10.129.128.129:2379

3. 扩容 TiKV 节点

配置 scale-out-tikv.yaml

tikv_servers:
  - host: 10.129.128.128
    ssh_port: 22
    port: 20160
    status_port: 20180
    deploy_dir: /data/tidb/tidb-deploy/tikv-20160
    data_dir: /data/tidb/tidb-data/tikv-20160
    log_dir: /data/tidb/tidb-log/tikv-20160
  - host: 10.129.128.129
    ssh_port: 22
    port: 20160
    status_port: 20180
    deploy_dir: /data/tidb/tidb-deploy/tikv-20160
    data_dir: /data/tidb/tidb-data/tikv-20160
    log_dir: /data/tidb/tidb-log/tikv-20160

执行 TiKV 扩容操作

tiup cluster scale-out test-tidb-prod scale-out-tikv.yaml --user root -i /home/tidb/.ssh/id_rsa

4. 扩缩容后集群信息

TiDB 节点
10.129.128.125
10.129.128.126
PD 节点
10.129.128.125
10.129.128.126
10.129.128.127
TiKV 节点
10.129.128.128
10.129.128.129
10.129.128.130
10.129.128.131
10.129.128.132

访问 TiDB Dashboard

经过上述扩缩容后，TiDB 集群服务正常，正常对外提供服务。

在原有正常的 TiDB 集群上进行扩容和缩容操作后，导致 TiDB Dashboard 集群信息中的主机页面访问失败，错误日志为：

{"error":true,"message":"error.api.other: Error 1105: Get http://10.129.128.128:2379/pd/api/v1/config/cluster-version: dial tcp 10.129.128.128:2379: connect: connection refused","code":"error.api.other","full_text":"error.api.other: Error 1105: Get http://10.129.128.128:2379/pd/api/v1/config/cluster-version: dial tcp 10.129.128.128:2379: connect: connection refused\
 at github.com/pingcap-incubator/tidb-dashboard/pkg/apiserver/utils.MWHandleErrors.func1()\
...

根据错误记录的还是扩缩容之前的 PD 节点（该节点已经缩容下线了），目前 PD leader 为 10.129.128.127 节点，那么针对这种情况如何修改？

来了老弟 · 2020 年8 月 5 日 03:50

这边看 128.128 服务器上的 pd-server 已经被缩容了，辛苦看下 display 的信息，并可以通过目前 up 状态的 pd-server 访问 dashboard 即可

PS：新帖中，辛苦正确选择帖子标签和分类

OneData · 2020 年8 月 5 日 05:46

感谢回复～

其实我访问就是通过 127 PD Leader 的，128 节点已经不是 PD了。
此时，数据库访问也会出现错误：

MySQL [(none)]> select * from information_schema.cluster_info;
ERROR 1105 (HY000): Get http://10.129.128.128:2379/pd/api/v1/config/cluster-version: dial tcp 10.129.128.128:2379: connect: connection refused

目前沟通下来，可能是一个bug， PD 节点扩缩容需要重启 TiDB 节点，才可以获取最新的 PD 信息。

通过 tidb-server 节点重启后，恢复正常。

来了老弟 · 2020 年8 月 5 日 07:16

这边没有看到 curl 语句，从日志中只看到了 128.128 的访问报错。。
请问有相关 issue？