pd日志报grpc: addrConn.createTransport failed to connect to

是的 ,这个日志是在194节点获取的,直到现在194还是在不停的尝试访问119

[2020/09/22 03:26:40.438 +02:00] [WARN] [grpclog.go:60] [“grpc: addrConn.createTransport failed to connect to {10.10.48.119:2379 0 }. Err :connection error: desc = “transport: Error while dialing dial tcp 10.10.48.119:2379: connect: no route to host”. Reconnecting…”]

谢谢

119 已经下线了嘛?看一下 member 状态是正常的么?有没有 119 还在么?

你好,可以看下第三条回复,119已经下线了,member状态是正常的。

这个扩缩容,手工修改过run.sh 脚步? 麻烦检查下各个脚步,是不是手工没有清理干净。建议尽快使用tiup.,方便操作。

根据你的反馈,我们其实怀疑可能是其他的服务 TiDB、TIKV、PD 的启动脚本里面包涵 119 的配置,所以需要帮忙排查;
另外上次抓取的信息,根据你的反馈,也怀疑是 119 节点信息在 PD cluster 集群里面没有清理干净,由于目前对集群正常使用没有影响,只是报错。如果有停机窗口,可以尝试重启一下 PD 集群,看看是否可以解决问题。

手工做过,每台pd都做过

恩恩,辛苦了。

从上面使用 capture 工具抓到的信息没有看到 119 相关的内容,可能是抓取的时间段,pd 的 log 里面没有出现访问 119 的报错信息,能否将收集信息的时间段拉长,包括 pd 访问 119 的时间点,再次尝试帮忙拿下信息吧~~

另外,也请将 capture 工具抓取的目标 pd 相同时间段的 log 也帮忙取下吧~~

谢谢,谢谢~~

您好,我查了下 kv tidb的run脚本里面果然有老的pd的信息,db是混合了新老pd,kv是只有老的pd信息。当时PD扩容缩容操作没有涉及DB和KV的run脚本修改。后续应该如何处理?

谢谢

您那里提到的含有已下线的 pd 的 run 脚本,方便按照下面的形式提供下吗?这里再看下:

1、TiDB Server

run 脚本内容:
xxxx

2、TiKV Server

run 脚本内容:
xxxx

3、PD Server

run 脚本内容:
xxxx

你好 信息在下面,谢谢

好的,收到。

另外,再确认下 PD 的缩容步骤:
1、pd-ctl delete member pd119
2、ansible-playbook stop.yaml -l pd119
3、编辑 inventory 文件将 pd119 的相关内容均注释掉
4、ansible-playbook deploy.yml

TiKV 以及 TiDB 的 run 脚本遗留 pd119 的信息,可能是缩容 pd119 的步骤存在异常。

我追溯了一下操作历史 只做了 ansible-playbook deploy.yml --tags=pd ,那这样说的话当时应该对整个环节都做deploy吧? ansible-playbook deploy.yml,后续的话怎么处理?

560 ansible-playbook -i hosts.ini create_users.yml -l 10.10.48.193,10.10.48.194,10.10.48.195 -u root -k
561 ansible-playbook -i hosts.ini deploy_ntp.yml -u tidb -b
562 ansible-playbook bootstrap.yml -l 10.10.48.193,10.10.48.194,10.10.48.195
570 vi roles/machine_benchmark/tasks/fio_randread.yml
571 ansible-playbook deploy.yml -l 10.10.48.193,10.10.48.194,10.10.48.195
572 ansible-playbook start.yml -l 10.10.48.193,10.10.48.194,10.10.48.195
573 /home/tidb/tidb-ansible/resources/bin/pd-ctl -i -u “http://10.10.48.98:2379
574 /home/tidb/tidb-ansible/resources/bin/pd-ctl -i -u “http://10.10.48.193:2379
576 vi inventory.ini
577 ansible-playbook deploy.yml --tags=pd
578 vi inventory.ini
579 ansible-playbook deploy.yml --tags=pd
580 vi inventory.ini
581 ansible-playbook stop.yml -l 10.10.48.118,10.10.48.125
582 vi inventory.ini
583 ansible-playbook rolling_update_monitor.yml --tags=prometheus

1、通过之前的历史步骤基本可以确认是缩容 pd 的操作步骤异常导致的上述问题

2、理论上,在确认 inventory 文件中无 pd119 相关信息,并且 tidb 集群中所有组件的 binary 文件版本没有发生过变化(inventory 文件中 tidb_version 参数)的情况下,可以执行 ansible-playbook deploy.yml ,来统一更新集群配置。

以上请评估~

注意

  • 操作建议在业务低峰期进行
  • 建议使用 TiUP 来运维管理集群。

非常感谢~

:handshake:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。