bks执行报错后没有进行重试操作

liyuntang · 2024 年7 月 31 日 02:49

【 TiDB 使用环境】测试环境
【 TiDB 版本】v7.1.0。 operator版本为1.4.6
【复现路径】配置bks进行周期性备份，备份报错后没有进行重试
【遇到的问题：问题现象及影响】
1、根据bks的设置，在备份任务失败后的5min后应该再次发起备份，但实际运行中并没有再次备份

官方参数解释：

bks配置

backup任务

报错的任务，此时距离备份报错已经11min了

TiDBer_xTvoCh2f · 2024 年7 月 31 日 02:54

还有这个工具呢。。。

tidb狂热爱好者 · 2024 年7 月 31 日 03:02

这个问题需要具体分析了 k8s用的人比较少

liyuntang · 2024 年7 月 31 日 03:03

operator版本1.4.6

liyuntang · 2024 年7 月 31 日 03:06

我看了下operator的源码，retry这块好像没生效

Billmay表妹 · 2024 年7 月 31 日 03:50

operator版本更新到最新版看看？

Billmay表妹 · 2024 年7 月 31 日 03:52

推荐 1.5 版本

yiduoyunQ · 2024 年7 月 31 日 04:01

提供一下问题时间段 tidb-operator （controller-manager-xxxx）的日志

yiduoyunQ · 2024 年7 月 31 日 04:40

这里是 v1.4.6 重试的逻辑 tidb-operator/pkg/controller/backup/backup_controller.go at v1.4.6 · pingcap/tidb-operator · GitHub ，可以照着代码去日志里搜关键词

liyuntang · 2024 年7 月 31 日 06:12

W0731 10:33:10.187620 1 backup_schedule_manager.go:340] backup schedule zzz/basic-backup-schedule does not set backup gc policy
I0731 10:33:10.188280 1 event.go:282] Event(v1.ObjectReference{Kind:“Backup”, Namespace:“zzz”, Name:“basic-backup-schedule-2024-07-31t02-33-00”, UID:“3a918b16-529c-4e4b-857b-a07e76f932f5”, APIVersion:“pingcap.com/v1alpha1”, ResourceVersion:“249655598”, FieldPath:“”}): type: ‘Normal’ reason: ‘SuccessfulCreate’ create Backup zzz/basic-backup-schedule-2024-07-31t02-33-00 for backupSchedule/basic-backup-schedule successful
I0731 10:33:10.193676 1 backup_schedule_status_updater.go:61] BackupSchedule: [zzz/basic-backup-schedule] updated successfully
W0731 10:33:10.193756 1 backup_schedule_manager.go:340] backup schedule zzz/basic-backup-schedule does not set backup gc policy
I0731 10:33:10.193809 1 backup_schedule_controller.go:105] BackupSchedule: zzz/basic-backup-schedule, still need sync: backup schedule zzz/basic-backup-schedule, the last backup basic-backup-schedule-2024-07-31t02-33-00 is still running, requeuing
I0731 10:33:10.197416 1 event.go:282] Event(v1.ObjectReference{Kind:“Backup”, Namespace:“zzz”, Name:“basic-backup-schedule-2024-07-31t02-33-00”, UID:“3a918b16-529c-4e4b-857b-a07e76f932f5”, APIVersion:“pingcap.com/v1alpha1”, ResourceVersion:“249655598”, FieldPath:“”}): type: ‘Normal’ reason: ‘SuccessfulCreate’ create job zzz/backup-basic-backup-schedule-2024-07-31t02-33-00 for cluster basic-backup-schedule backup successful
I0731 10:33:10.205148 1 backup_status_updater.go:123] Backup: [zzz/basic-backup-schedule-2024-07-31t02-33-00] updated successfully
W0731 10:33:11.194986 1 backup_schedule_manager.go:340] backup schedule zzz/basic-backup-schedule does not set backup gc policy
I0731 10:33:11.195076 1 backup_schedule_controller.go:105] BackupSchedule: zzz/basic-backup-schedule, still need sync: backup schedule zzz/basic-backup-schedule, the last backup basic-backup-schedule-2024-07-31t02-33-00 is still running, requeuing
W0731 10:33:13.195967 1 backup_schedule_manager.go:340] backup schedule zzz/basic-backup-schedule does not set backup gc policy
I0731 10:33:13.196088 1 backup_schedule_controller.go:105] BackupSchedule: zzz/basic-backup-schedule, still need sync: backup schedule zzz/basic-backup-schedule, the last backup basic-backup-schedule-2024-07-31t02-33-00 is still running, requeuing