dashboard报该主机上没有实例存活，因此无法获取主机信息

TiDBer_o0MXVuK4 · 2022 年9 月 13 日 07:05

【 TiDB 使用环境】测试
【 TiDB 版本】6.1.0
【遇到的问题】使用tiup部署完集群之后，进入dashboard->集群信息->磁盘，有一个pd节点的磁盘信息出不来，报错：由于该主机上没有实例存活，因此无法获取主机信息
【复现路径】没做过任何操作，部署完就dashboard就看到这个问题
【问题截图】

但是其他地方都是正常的，如下图：

【pd的日志文件】
pd.log (28.7 KB)
blackbox_exporter.log (764 字节)
node_exporter.log (11.0 KB)
【补充说明】
1、刚部署完集群，没有任何数据，暂时没做任何处理，机器是干净的
2、三个pd，配置都很高，只有这一个pd存在这个问题
3、去grafana，能够看到磁盘信息的，如下图所示：

4、该节点的blackbox_exporter和node_exporter也都是正常的，如下图所示：

xfworld · 2022 年9 月 13 日 07:48

把哪个有问题的pd节点，重启下试试…单独重启…

TiDBer_o0MXVuK4 · 2022 年9 月 13 日 08:11

重启服务还是机器呢？

xfworld · 2022 年9 月 13 日 08:14

如果不是leader 节点，可以先重启下机器，再来重启服务

tiup cluster restart <cluster-name> --node IP:PORT

TiDBer_o0MXVuK4 · 2022 年9 月 13 日 08:21

我暂时：tiup cluster restart tidb-prod -N 10.0.6.42:2379
不起作用，这就重启下机器试试

TiDBer_o0MXVuK4 · 2022 年9 月 13 日 09:01

重启了机器，再重启服务，还是不行。
我可以确认服务都是正常的

xfworld · 2022 年9 月 13 日 09:07

哪个节点的日志，有没有啥异常的信息？

xfworld · 2022 年9 月 13 日 09:10

检查下这些节点之间的通讯看看…

TiDBer_o0MXVuK4 · 2022 年9 月 13 日 09:45

应该跟这个报错没关系：
1、前面那一堆报错，是因为在启动阶段，这个pd最先启动的，其他进程还没启动，他写的就是等待下一次check，后续就没有报错了
2、下面那个报错，是重启之后我再次访问ui，没有登录报的错，它自动跳转到登录页了（我刚才直接退出到登录页，然后重启服务，直接登录就没有出现过这个报错，185那个IP就是我本机IP）

【这是最新的日志（其清空日志，重新启动了）】：
pd.log (20.9 KB)

TiDBer_o0MXVuK4 · 2022 年9 月 13 日 10:32

目前来看也不影响使用，就是看着难受，感觉像个BUG

qizheng · 2022 年9 月 14 日 02:26

可以查查 cluster_hardware 视图 disk 相关信息

TiDBer_o0MXVuK4 · 2022 年10 月 7 日 10:05

1、看了，一切正常，磁盘的信息都是正常的
2、我还通过浏览器的开发者工具，查看返回的数据，磁盘也是正常的
3、且过了一段时间，另一个节点也出现了这种情况，我可以肯定服务一切正常

{
“host”:“10.0.6.42”,
“cpu_info”:{
“arch”:“amd64”,
“logical_cores”:32,
“physical_cores”:32
},
“cpu_usage”:{
“idle”:0.96,
“system”:0
},
“memory_usage”:{
“used”:30730096640,
“total”:101191753728
},
“partitions”:{
“/boot”:{
“path”:“/boot”,
“fstype”:“ext4”,
“free”:324261888,
“total”:499337216
},
“/data”:{
“path”:“/data”,
“fstype”:“ext4”,
“free”:766832631808,
“total”:951061880832
},
“/var/lib/docker/containers”:{
“path”:“/var/lib/docker/containers”,
“fstype”:“ext4”,
“free”:61470498816,
“total”:88122449920
}
},
“instances”:{
“10.0.6.42:2379”:{
“type”:“pd”,
“partition_path_lower”:“”
}
}
}

Minorli-PingCAP · 2022 年10 月 11 日 06:52

您好，此问题暂时没有明确的日志可查。看描述似乎属于 dashboard 的采集问题。建议采集一下 tiup cluster 的 check 信息，看看是否是 OS 配置不最佳。