BR 备份报错，为啥有的集群没问题

lxzkenney · 2022 年7 月 13 日 14:32

tidb 5.0.3
（线上另外两套集群一套是5.0.1，一套是5.1.1 备份任务跑了1年了，方式也是一样的，没有问题。昨天晚上首次备份的这个集群是 5.0.3版本。后来我又用了dumpling,备份到本地，也中断了，见最下方截图，是需要把SQL最大执行时长调大吗）
报错如下：

br 版本：

看监控发现tcp retans 有点高，但是这个点网卡流量不大。正好是我备份时候的时间点。

dumpling中断报错：

我看了下日志，dumpling的SQL中的表，ID 是auto_random属性的。数据量2.5亿。我的最大SQL执行时长是10分钟，应该是跑超时了。被KILL，然后dumpling任务中断了。不知道是这个逻辑不。

xfworld · 2022 年7 月 13 日 23:57

BR 升级试试

ShawnYan · 2022 年7 月 14 日 01:03

BR全备超时失败，备份job运行多久了，第一次出现？那个时间 br 和 tikv 之间有网络异常么？

lxzkenney · 2022 年7 月 14 日 01:59

后来用这个新版本，跑了两次都是卡在这个报错上

lxzkenney · 2022 年7 月 14 日 02:08

这个集群是是第一次跑备份，之前没备过。集群运行了很久了。腾讯云主机，内网通讯没异常，晚上22点之后就没量了。备份重新跑了几次，始终卡在这个报错上，跑个10几分钟左右。

我发现这个tcp retans 比较高，整好是我备份的时候。我看网卡流量不大。

xiaohetao · 2022 年7 月 14 日 02:51

备份放到什么位置了，这中间的网络通信是ok的吗？

banana_jian · 2022 年7 月 14 日 02:57

备份的目录用的是nfs么？

lxzkenney · 2022 年7 月 14 日 03:05

cos 上，腾讯云的对象存储。他们的产品通讯是内网。

lxzkenney · 2022 年7 月 14 日 03:05

COS 云对象存储

banana_jian · 2022 年7 月 14 日 03:11

tikv所在的节点对这个存储的访问都是没问题的吧？权限路径啥的？

lxzkenney · 2022 年7 月 14 日 03:17

管理员权限，数据文件写进去了，备份跑了10多分钟后中断的

banana_jian · 2022 年7 月 14 日 03:27

好像之前有过类似的bug，看看别的大佬能不能帮帮你吧

lxzkenney · 2022 年7 月 15 日 03:05

tidb集群和备份的存储跨云了，专线不稳定，备份过程中网络通讯有问题，任务超时中断了。

cs58_dba · 2022 年7 月 16 日 00:51

我们之前也是从阿里云的ECS服务器同步大量数据到OSS上，同一个云里，吞吐量太高也会有限制，直接断开同步

system · 2022 年10 月 31 日 19:26

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。