dashboard报该主机上没有实例存活,因此无法获取主机信息

【 TiDB 使用环境】测试
【 TiDB 版本】6.1.0
【遇到的问题】使用tiup部署完集群之后,进入dashboard->集群信息->磁盘,有一个pd节点的磁盘信息出不来,报错:由于该主机上没有实例存活,因此无法获取主机信息
【复现路径】没做过任何操作,部署完就dashboard就看到这个问题
【问题截图】


但是其他地方都是正常的,如下图:



【pd的日志文件】
pd.log (28.7 KB)
blackbox_exporter.log (764 字节)
node_exporter.log (11.0 KB)
【补充说明】
1、刚部署完集群,没有任何数据,暂时没做任何处理,机器是干净的
2、三个pd,配置都很高,只有这一个pd存在这个问题
3、去grafana,能够看到磁盘信息的,如下图所示:

4、 该节点的blackbox_exporter和node_exporter也都是正常的,如下图所示:

把哪个有问题的pd节点,重启下试试…单独重启…

重启服务还是机器呢?

如果不是leader 节点,可以先重启下机器,再来重启服务

tiup cluster restart <cluster-name> --node IP:PORT

我暂时:tiup cluster restart tidb-prod -N 10.0.6.42:2379
不起作用,这就重启下机器试试

重启了机器,再重启服务,还是不行。
我可以确认服务都是正常的

哪个节点的日志,有没有啥异常的信息?


检查下这些节点之间的通讯看看…

应该跟这个报错没关系:
1、前面那一堆报错,是因为在启动阶段,这个pd最先启动的,其他进程还没启动,他写的就是等待下一次check,后续就没有报错了
2、下面那个报错,是重启之后我再次访问ui,没有登录报的错,它自动跳转到登录页了(我刚才直接退出到登录页,然后重启服务,直接登录就没有出现过这个报错,185那个IP就是我本机IP)

【这是最新的日志(其清空日志,重新启动了)】:
pd.log (20.9 KB)

目前来看也不影响使用,就是看着难受,感觉像个BUG

可以查查 cluster_hardware 视图 disk 相关信息

1、看了,一切正常,磁盘的信息都是正常的
2、我还通过浏览器的开发者工具,查看返回的数据,磁盘也是正常的
3、且过了一段时间,另一个节点也出现了这种情况,我可以肯定服务一切正常

{
“host”:“10.0.6.42”,
“cpu_info”:{
“arch”:“amd64”,
“logical_cores”:32,
“physical_cores”:32
},
“cpu_usage”:{
“idle”:0.96,
“system”:0
},
“memory_usage”:{
“used”:30730096640,
“total”:101191753728
},
“partitions”:{
“/boot”:{
“path”:“/boot”,
“fstype”:“ext4”,
“free”:324261888,
“total”:499337216
},
“/data”:{
“path”:“/data”,
“fstype”:“ext4”,
“free”:766832631808,
“total”:951061880832
},
“/var/lib/docker/containers”:{
“path”:“/var/lib/docker/containers”,
“fstype”:“ext4”,
“free”:61470498816,
“total”:88122449920
}
},
“instances”:{
“10.0.6.42:2379”:{
“type”:“pd”,
“partition_path_lower”:“”
}
}
}

您好,此问题暂时没有明确的日志可查。看描述似乎属于 dashboard 的采集问题。建议采集一下 tiup cluster 的 check 信息,看看是否是 OS 配置不最佳。