tikv无法连接到 pd

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】
使用tidb-operator安装tidb集群后,pd正常启动,tikv无法连接pd,提示错误

[INFO] [util.rs:567] [“PD failed to respond”] [err=“Grpc(RpcFailure(RpcStatus { code: 4-DEADLINE_EXCEEDED, message: "Deadline Exceeded", details: [] }))”] [endpoints=http://tidb-cluster-pd:2379]

容器里面http://tidb-cluster-pd:2379/pd/api/v1/stores 这个能调通
4:28
[root@tidb-cluster-tikv-0 /]# curl http://tidb-cluster-pd:2379/pd/api/v1/stores
{
“count”: 3,
“stores”: [
{
“store”: {
“id”: 2001,
“address”: “tidb-cluster-tikv-0.tidb-cluster-tikv-peer.tidb-cluster.svc:20160”,
“version”: “7.1.2”,
“peer_address”: “tidb-cluster-tikv-0.tidb-cluster-tikv-peer.tidb-cluster.svc:20160”,
“status_address”: “tidb-cluster-tikv-0.tidb-cluster-tikv-peer.tidb-cluster.svc:20180”,
“git_hash”: “8632b3952d931e510d00953f89477ce095b3d902”,
“start_timestamp”: 1703756506,
“deploy_path”: “/”,
“last_heartbeat”: 1703812921932741743,
“node_state”: 1,
“state_name”: “Down”
},
“status”: {
“capacity”: “0B”,
“available”: “0B”,
“used_size”: “0B”,
“leader_count”: 0,
“leader_weight”: 1,
“leader_score”: 0,
“leader_size”: 0,
“region_count”: 6,
“region_weight”: 1,
“region_score”: 0,
“region_size”: 0,
“start_ts”: “2023-12-28T17:41:46+08:00”,
“last_heartbeat_ts”: “2023-12-29T09:22:01.932741743+08:00”,
“uptime”: “15h40m15.932741743s”
}
},
{
“store”: {
“id”: 2004,
“address”: “tidb-cluster-tikv-2.tidb-cluster-tikv-peer.tidb-cluster.svc:20160”,
“version”: “7.1.2”,
“peer_address”: “tidb-cluster-tikv-2.tidb-cluster-tikv-peer.tidb-cluster.svc:20160”,
“status_address”: “tidb-cluster-tikv-2.tidb-cluster-tikv-peer.tidb-cluster.svc:20180”,
“git_hash”: “8632b3952d931e510d00953f89477ce095b3d902”,
“start_timestamp”: 1703756505,
“deploy_path”: “/”,
“last_heartbeat”: 1703812921542561872,
“node_state”: 1,
“state_name”: “Down”
},
“status”: {
“capacity”: “0B”,
“available”: “0B”,
“used_size”: “0B”,
“leader_count”: 0,
“leader_weight”: 1,
“leader_score”: 0,
“leader_size”: 0,
“region_count”: 6,
“region_weight”: 1,
“region_score”: 0,
“region_size”: 0,
“start_ts”: “2023-12-28T17:41:45+08:00”,
“last_heartbeat_ts”: “2023-12-29T09:22:01.542561872+08:00”,
“uptime”: “15h40m16.542561872s”
}
},
{
“store”: {
“id”: 3001,
“address”: “tidb-cluster-tikv-1.tidb-cluster-tikv-peer.tidb-cluster.svc:20160”,
“version”: “7.1.2”,
“peer_address”: “tidb-cluster-tikv-1.tidb-cluster-tikv-peer.tidb-cluster.svc:20160”,
“status_address”: “tidb-cluster-tikv-1.tidb-cluster-tikv-peer.tidb-cluster.svc:20180”,
“git_hash”: “8632b3952d931e510d00953f89477ce095b3d902”,
“start_timestamp”: 1703756506,
“deploy_path”: “/”,
“last_heartbeat”: 1703812921870843688,
“node_state”: 1,
“state_name”: “Down”
},
“status”: {
“capacity”: “0B”,
“available”: “0B”,
“used_size”: “0B”,
“leader_count”: 0,
“leader_weight”: 1,
“leader_score”: 0,
“leader_size”: 0,
“region_count”: 6,
“region_weight”: 1,
“region_score”: 0,
“region_size”: 0,
“start_ts”: “2023-12-28T17:41:46+08:00”,
“last_heartbeat_ts”: “2023-12-29T09:22:01.870843688+08:00”,
“uptime”: “15h40m15.870843688s”
}
}
]
}

先测试连接是否正常,然后确认SSH是否能连接

可能是因为 tikv 节点无法和 pd 节点通信造成的。
1在 tikv 节点上执行 ping tidb-cluster-pd,确认是否能够 ping 通 pd 节点。
2 在 tikv 节点上执行 telnet tidb-cluster-pd 2379,确认是否能够建立到 pd 节点的 TCP 连接。
3 检查防火墙设置,确保防火墙没有阻止节点之间的网络连接。
4 检查 pd 节点的日志,确认是否有相关错误信息。

1 个赞

先确认网络通不通

网络和ssh都检查一下

在tikv节点上 执行 curl http://tidb-cluster-pd:2379/pd/api/v1/stores,是正常响应的,说明网络没有问题

表面上看,http是通的,但是grpc调用超时

先检查网络,再检查协议,再检查配置文件

k8s的网络组件运行正常的吗?
社区很少有人用k8s安装tidb,出问题需要咨询k8s大佬。

防火墙看一下是不是没关或者端口没放

到tikv容器里执行下time dig tidb-cluster-pd,看看要多久

网络和ssh都检查一下

感觉像防火墙端口限制

看一下防火墙是不是拦截了

网络和ssh都检查一下

按我的方法排查一下先。

1 个赞