使用br还原整库时报Error while dialing dial tcp: missing address

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【概述】 场景 + 问题概述
在测试环境做全库备份,备份是成功的,但还原时报

Error: rpc error: code = Unavailable desc = connection error: desc = “transport: Error while dialing dial tcp: missing address”

【备份和数据迁移策略逻辑】
全库备份,备份语句为:

br backup full --pd “192.168.68.129:2379” -s “local:///dbbak/full_20210608_2” --log-file backup_full.log
还原语句为:
br restore full --pd 192.168.68.129:2379 -s local:///dbbak/full_20210608_2 --log-file restorefull.log

【背景】 做过哪些操作
使用以下命令强制删除状态为offline的节点(tiup cluster display 已看不到该节点,pd-ctl -u http://192.168.68.129:2379 member也看不到该节点)

curl -X POST ‘http:///pd/api/v1/store/<store_id>/state?state=Tombstone’

集群信息如下:

【现象】 业务和数据库现象

【问题】 当前遇到的问题

【业务影响】

【TiDB 版本】
v4.0.10

【附件】
backup_full.log (38.7 KB) restorefull.log (173.2 KB)

  • 相关日志、配置文件、Grafana 监控(https://metricstool.pingcap.com/)
  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息
  • TiDB-Overview 监控
  • 对应模块的 Grafana 监控(如有 BR、TiDB-binlog、TiCDC 等)
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

检查下是否由于集群的性能不足导致
https://docs.pingcap.com/zh/tidb/stable/backup-and-restore-faq#br-遇到错误信息-rpc-error-code--unavailable-desc-该如何处理

另外建议用不小于集群版本的 br 进行恢复,日志提示版本 4.0.4

感谢回复!
刚尝试把br版本也升成和集群一样的v4.0.10,同时也指定了ratelimit和concurrency ,执行命令如下:

br restore full --pd 192.168.68.129:2379 -s local:///dbbak/full_20210608 --log-file restorefull.log  --ratelimit 10 --concurrency 1

但问题依旧。 然后我尝试把扩容,把192.168.68.132也作为tikv增加到集群里:


然后再执行br备份,其报错如下:

[tidb@localhost ~]$ br restore full --pd 192.168.68.129:2379 -s local:///dbbak/full_20210608 --log-file restorefull.log  --ratelimit 10 --concurrency 1
Detail BR log in restorefull.log 
Full restore <------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------> 100.00%
Error: rpc error: code = Unavailable desc = connection error: desc = "transport: Error while dialing dial tcp 192.168.68.132:20160: connect: no route to host"
[tidb@localhost ~]$ 

还原日志如下:
restorefull.log (26.4 KB)

transport: Error while dialing dial tcp 192.168.68.132:20160: connect: no route to host

可以检查下这个节点是不是正常

感谢指导,这个节点的防火墙忘关了导致报connect: no route to host

按照您刚才的指导,扩容(有问题前是两个tikv,现在增加一个tikv)并且把br升级到和集群相同的版本,问题解决。

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。