v6.4.0版本的TiKV日志备份功能,在集群模式下测试发现一些问题。

【 TiDB 使用环境】
测试
【 TiDB 版本】
v6.4.0
【复现路径】
【遇到的问题:问题现象及影响】
经测试,发现TiDB支持日志备份的版本v6.4.0目前存在以下一些问题:

  1. 集群日志备份到本地失败,只生成了备份目录但没有产生备份文件,单节点备份到本地正常。
  2. 六节点集群,3 PD 6 TiKV 6TiDB,停掉一个TiKV节点,日志备份gap会有一定增长(五分钟左右),但在十分.
    钟内能够被追平,且追平后不会再出现gap明显增长的情况,全量+增量恢复正常。
  3. 六节点集群,3 PD 6 TiKV 6TiDB,停掉两个TiKV节点,日志备份的gap一直累积,一直到两个半小时左右.
    都未能够追平(初步判断为无法追平)。
  4. 日志备份正常期间,外部存储ceph节点关机,日志备份无报错,但gap一直累积,备份文件正常输出到本地.
    缓存。ceph节点开机后,gap可以追平。(ceph关机十分钟)
    【资源配置】
    6台云主机,配置 2C4G Disk 50G
    【附件:截图/日志/监控】
    环境已经铲掉了,只有问题点3的终端能截图到日志备份任务的信息:

没看明白… 你想说的是什么问题… :joy:

哈哈,想表达的问题其实就三个:

  1. 日志备份任务如何管理?比如该怎么判断异常了?
  2. 集群节点异常(tikv宕机)但集群业务读写正常的情况下日志备份是否会异常(两个半小时没有追平gap)?
  3. 当前版本是不是还不支持集群的tikv日志备份到本地?
  1. 为什么备份日志?
  2. 集群异常和副本策略有关,副本策略不能满足集群调度,导致副本失效,怎么追?
  3. 没看懂,为啥要备份日志?你要备份 WAL 么?
  1. 采用你们官方v6.4.0版本的pitr功能实现数据库全量+增量的备份。
  2. 副本策略不能满足集群调度导致副本失效是指的什么呢?我是部署了六台机器 3PD+6tikv+6tidb的集群,依次关掉两台机器,这样会导致集群的副本调度策略失效是吗?但是全量备份是没有问题的,只不过时间需要久一点,在此期间集群也是能正常读写的,所以看现象应该集群的副本调度策略是生效的吧?
  3. 不是WAL。

主要是为了验证PITR哈, :blush:

提供下怎么部署的,看看关掉的机器上跑了什么

  1. BR 是标准的备份工具
  2. 副本策略是建表的时候定的,也没描述清楚,我也不可能去能猜测到,具体是什么样的
  3. 实际上是对SST信息做了快照处理… 如图所示,也就是把 元数据和 实际的行数据,传递到 存储中而已
1 个赞

我就默默的看看大佬们聊

关键是,我还是没弄懂,你想表达的什么问题 :joy:

部署是直接从官网下载二进制包部署的,配置都是默认的没有改动。关掉的机器上面分别跑了pd+tikv+tidb 和tidb+tikv。

我就是想表达,v6.4.0的pitr功能是不是还不稳定?需要等待后续稳定版本出来再看是否能够修复这些问题? :rofl:
我被你问得也差点想不起来我的核心问题是啥了要 :innocent:

问题其实已经在上面了列出来了 :joy:

6.4 不是 LTS,是 DMR

如果想上生产的话,目前推荐 6.1 LTS

然后 POC 也建议这个版本。但是你想体验特性的话,6.4 可以,要上生产要在等等

我猜测,你想实验 同步备份和恢复的过程,本身tikv 多副本是支持调度的,可以实现副本的均衡,只要节点足够

图例中描述的是 备份和恢复的过程了,你可以参考文档在模拟一下

小白一枚,求指教!

嗯啦,准确来讲是实验全量备份+日志备份来实现PITR。
早知道我一上来就问我的核心问题了 :rofl:
PITR上生产大概要等多久呀?我看v6.4.0是这个月17号才出来。。。

等到下一个 LTS 咯

这个时间很有可能会后延,发布版本的话,还是要看一些问题是否都修复了…

那我上面提的问题你可以转一下么?也可以修复一下,哈哈~
延后应该不会到明年吧?

哦解释说明一下,我测试的时候是单库单表的数据读写哈。

等PITR GA吧,好像是还没有GA,现在问题也比较多

这个有两种模式: 快照和日志回放,我建议你在测试一下

单库单表不是问题点咯~

关键是这个过程,是否能满足你的预期