lightning 恢复报错:create TSO stream failed, retry timeout

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.1.0
【复现路径】lightning 恢复
【遇到的问题:
dump tidbv5.0.6 执行lightning 恢复到v6.1.0时,报create TSO stream failed, retry timeout错误


查看pd log 错误

【资源配置】

lightning local 模式还原的话,应该是从 pd 中拿的 tikv 的 hostmap,你这个感觉是找不到对应集群的 tikv 节点。

报错lookup tidb-cluster-pd-2.tidb-cluster-pd-peer.mcd-reng.svc on 100.64.0.101:53: no such host"
tidb-cluster-pd-2是pd的leader,这块就报错了,还没到从 pd 中拿的 tikv 的 hostmap阶段。
没理解通过LoadBalancer方式访问,怎么还解析 service的dns

数据量不多的话 可以试试 逻辑模式。

100.64.0.101:53这个地址加端口能通吗?

telnet 端口是通的

数据量比较多1T多,也需要断点续传,如何进一步排查问题呢

可以同 k8s 集群还原么,只要打通 s3 或者什么网络存储 两边访问即可。

跨机房,数据迁移比较麻烦,若可以同集群下还原,就直接同集群了

lightning 的版本跟集群一致吗?也是6.1.0吗?

数据从v5.0.4导入到6.1.0,用v5.0.4 lightning导入之前的报错,提示用v6.1.0lightning导入报:

不跨k8s集群,把导出来的数据挂到新的集群上去做恢复呢?

跨机房,数据迁移比较麻烦,若可以同集群下还原,直接同集群了 :joy: 帮忙还是从技术方面看看

看报错是访问不到pd节点,k8s我也不太懂,等等其他大佬的回复吧

调整相同到k8s集群,报错信息

调整到相同集群后,报错信息如上图

  1. 执行lightning的节点 telnet下pd ip 端口,看网络是否正常。
  2. 看看PD节点的日志,有么有报错?状态是否正常。

可以试试 dm ,br 不要硬啃lightning

在 Kubernetes 上使用 DM | PingCAP Docs
备份与恢复简介 | PingCAP Docs

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。