pd日志报grpc: addrConn.createTransport failed to connect to

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。

  • 【TiDB 版本】:3.0.5
  • 【问题描述】:
    PD日志报
    [grpclog.go:60] [“grpc: addrConn.createTransport failed to connect to {10.10.xx.119:2379 0 }. Err :connection error: desc = “transport: Error while dialing dial tcp 10.10.xx.119:2379: connect: no route to host”. Reconnecting…”]

119是以前的节点,曾经做过一次将PD和DB节点在线移除替换操作,将119节点移除,用另外的服务器替换。整个移除替换操作顺利完成,pd-ctl 中member和helath 没有119节点的信息。

上述报错是在 pd 正常提供服务的状态下出现的还是在重启某个 pd 节点时出现的?

另外,辛苦提供下下面的信息,这里再分析下:

1、将完整的 pd log 文件上传

2、pd-ctl member 以及 health 截图上传

3、请将 pd server 的 run_pd.sh 上传

pd.log (9.2 MB)

member

{
“header”: {
“cluster_id”: 6766052503359926769
},
“members”: [
{
“name”: “pd_tidbpd195”,
“member_id”: 6516220822961258929,
“peer_urls”: [
http://10.10.48.195:2380
],
“client_urls”: [
http://10.10.48.195:2379
]
},
{
“name”: “pd_tidbpd194”,
“member_id”: 12642193949440828470,
“peer_urls”: [
http://10.10.48.194:2380
],
“client_urls”: [
http://10.10.48.194:2379
]
},
{
“name”: “pd_tidbpd193”,
“member_id”: 13822200544578743068,
“peer_urls”: [
http://10.10.48.193:2380
],
“client_urls”: [
http://10.10.48.193:2379
]
}
],
“leader”: {
“name”: “pd_tidbpd194”,
“member_id”: 12642193949440828470,
“peer_urls”: [
http://10.10.48.194:2380
],
“client_urls”: [
http://10.10.48.194:2379
]
},
“etcd_leader”: {
“name”: “pd_tidbpd194”,
“member_id”: 12642193949440828470,
“peer_urls”: [
http://10.10.48.194:2380
],
“client_urls”: [
http://10.10.48.194:2379
]
}
}

health

[
{
“name”: “pd_tidbpd195”,
“member_id”: 6516220822961258929,
“client_urls”: [
http://10.10.48.195:2379
],
“health”: true
},
{
“name”: “pd_tidbpd194”,
“member_id”: 12642193949440828470,
“client_urls”: [
http://10.10.48.194:2379
],
“health”: true
},
{
“name”: “pd_tidbpd193”,
“member_id”: 13822200544578743068,
“client_urls”: [
http://10.10.48.193:2379
],
“health”: true
}
]

run_pd.sh

#!/bin/bash
set -e
ulimit -n 1000000

DEPLOY_DIR=/data/tidb/deploy

cd “${DEPLOY_DIR}” || exit 1

exec bin/pd-server
–name=“pd_tidbpd194”
–client-urls=“http://10.10.48.194:2379
–advertise-client-urls=“http://10.10.48.194:2379
–peer-urls=“http://10.10.48.194:2380
–advertise-peer-urls=“http://10.10.48.194:2380
–data-dir=“/data/tidb/deploy/data.pd”
–initial-cluster=“pd_tidbpd193=http://10.10.48.193:2380,pd_tidbpd194=http://10.10.48.194:2380,pd_tidbpd195=http://10.10.48.195:2380
–config=conf/pd.toml
–log-file=“/data/tidb/deploy/log/pd.log” 2>> “/data/tidb/deploy/log/pd_stderr.log”

上述报错告警级别为 warning ,目前影响您那里业务使用了吗?理论上正常缩容后,在 pd 的 log 中不会出现上面的日志条目,故请再提供下下面的信息:

(1) 缩容时,使用的缩容工具,操作步骤以及缩容操作的日志辛苦提供下~

(2) 缩容时,pd server 在缩容时间段附近的 log 也辛苦提供下~

辛苦,感谢配合~~

pd_head.log (1.9 MB)

过程参照了官网,先扩容后缩容,修改run_pd.sh,ansable update。在运行过程中没有什么问题

您好,查看了下上传的 pd_head.log ,发现从 5 月 08 号 13:45 开始,就不再连接 119 这个 PD 了,后面是从什么时间开始又开始连接这个 PD 的呢?

[2020/05/08 13:45:56.951 +02:00] [INFO] [cluster.go:374] ["removed member"] [cluster-id=914f70a3370ec627] [local-member-id=af72186a72036436] [removed-remote-peer-id=c1f07f545e8be3e1] [removed-remote-peer-urls="[http://10.10.48.119:2380]"]

pd193.log (2.4 MB) pd194.log (3.0 MB)

pd195.rar (1.3 MB)

以上3个是新增PD节点第一次出现
grpc: addrConn.createTransport failed to connect to 时的日志

1、当前这个日志条目是 warning 级别,理论上不会影响业务请求,确认下,当前 PD leader 是正常提供服务的吧?

2、关于这个日志条目出现的原因,这里内部再分析下,根据日志能看到 2020/05/08 之后就没有出现了,但是从 2020/05/27 开始又出现相应的报错:

如果有新的进展这里会跟帖回复,感谢配合~~

没有发现影响到生产迹象。后续有升级到4.0的计划,担心会影响到升级。谢谢

您好,被缩容的 119 的 PD 的 log 还有保留吗?如果还有,辛苦上传下吧,谢谢~~

:sob: 119机器已经处理了,没有了

您好,是否可以帮忙抓一个 goroutine 看下,这个报错理论上不影响后续升级:

curl http://127.0.0.1:2379/debug/pprof/goroutine?debug=2

感谢~~~

bug194.log (387.1 KB)

你好,以上是194的debug信息,谢谢。

收到,我们内部分析下,如有更新会及时跟帖回复,感谢配合~~

您好,辛苦使用 https://github.com/siddontang/capture 抓下 grpc message 信息,这里再分析看下,谢谢~~

1、在抓取时,请选择仍将请求发送给下线 pd 的 pd server 的 grpc message 信息
2、在选择端口时,请分别使用 client_port 和 peer_port 各抓一次

https://github.com/siddontang/capture

你好,这个 capture如何安装? github的连接中没有 capture执行文件。

谢谢

您好,这个是研发老师 build 好的一个 binary 包,可以在环境里执行:

1、执行位置是目标 pd server 服务器
2、-i 参数表示网卡

capture.zip (8.2 MB)

capture2379.rar (966.2 KB)
你好,收录了一台PD的日志,谢谢

好的,收到,谢谢!!

在上述日志里面没有看到请求 119 这台服务器的信息,跟您确认下,这个日志是在现在仍然访问 119 的 PD Server上抓取的吗?