lightning 恢复报错：create TSO stream failed, retry timeout

zhenda · 2023 年1 月 10 日 10:10

【 TiDB 使用环境】生产环境
【 TiDB 版本】6.1.0
【复现路径】lightning 恢复
【遇到的问题：
dump tidbv5.0.6 执行lightning 恢复到v6.1.0时，报create TSO stream failed, retry timeout错误

查看pd log 错误

【资源配置】

WalterWj · 2023 年1 月 10 日 10:14

lightning local 模式还原的话，应该是从 pd 中拿的 tikv 的 hostmap，你这个感觉是找不到对应集群的 tikv 节点。

zhenda · 2023 年1 月 10 日 11:14

报错lookup tidb-cluster-pd-2.tidb-cluster-pd-peer.mcd-reng.svc on 100.64.0.101:53: no such host"
tidb-cluster-pd-2是pd的leader，这块就报错了，还没到从 pd 中拿的 tikv 的 hostmap阶段。
没理解通过LoadBalancer方式访问，怎么还解析 service的dns

WalterWj · 2023 年1 月 10 日 13:07

数据量不多的话可以试试逻辑模式。

tidb菜鸟一只 · 2023 年1 月 11 日 01:06

100.64.0.101:53这个地址加端口能通吗？

zhenda · 2023 年1 月 11 日 01:52

telnet 端口是通的

zhenda · 2023 年1 月 11 日 01:53

数据量比较多1T多，也需要断点续传，如何进一步排查问题呢

WalterWj · 2023 年1 月 11 日 02:38

可以同 k8s 集群还原么，只要打通 s3 或者什么网络存储两边访问即可。

zhenda · 2023 年1 月 11 日 03:00

跨机房，数据迁移比较麻烦，若可以同集群下还原，就直接同集群了

裤衩儿飞上天 · 2023 年1 月 11 日 03:05

lightning 的版本跟集群一致吗？也是6.1.0吗？

zhenda · 2023 年1 月 11 日 06:29

数据从v5.0.4导入到6.1.0，用v5.0.4 lightning导入之前的报错，提示用v6.1.0lightning导入报：

裤衩儿飞上天 · 2023 年1 月 11 日 06:59

不跨k8s集群，把导出来的数据挂到新的集群上去做恢复呢？

zhenda · 2023 年1 月 11 日 07:12

跨机房，数据迁移比较麻烦，若可以同集群下还原，直接同集群了帮忙还是从技术方面看看

裤衩儿飞上天 · 2023 年1 月 11 日 07:43

看报错是访问不到pd节点，k8s我也不太懂，等等其他大佬的回复吧

zhenda · 2023 年1 月 12 日 03:52

调整相同到k8s集群，报错信息

zhenda · 2023 年1 月 12 日 03:57

调整到相同集群后，报错信息如上图

裤衩儿飞上天 · 2023 年1 月 12 日 03:59

执行lightning的节点 telnet下pd ip 端口，看网络是否正常。
看看PD节点的日志，有么有报错？状态是否正常。

ffeenn · 2023 年1 月 12 日 07:40

可以试试 dm ,br 不要硬啃lightning

在 Kubernetes 上使用 DM | PingCAP Docs
备份与恢复简介 | PingCAP Docs

system · 2023 年3 月 13 日 07:40

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。