BR 备份非常缓慢

TiDBer_RywnG56h · 2024 年6 月 11 日 08:39

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.1.0
我们有2个生产环境，每个环境的TiDB 的拓扑是一样的，资源规格也是一样的（都是通过operatopr 部署在K8S 中的）；数据量、查询的QPS 等也差不多。但是其中一个环境BR 备份只要 37分钟，而另一个环境却要6小时，

请问有什么排查思路呢？

zhaokede · 2024 年6 月 11 日 08:53

备份的数据量，网络情况是否一样

TiDBer_RywnG56h · 2024 年6 月 11 日 09:52

数据量在一个量级，备份慢（6小时）的这个集群备份到对象存储后有35GB，备份快的这个集群（37分钟）备份到对象存储后有24.5GB。

网络状况都是一样的，快的这个集群是阿里云，备份到OSS；慢的集群是在AWS 上，备份到S3。我觉得不会存在网络瓶颈。

而且，备份慢的这个集群，也是最近半个月才开始变慢的。

TiDBer_RywnG56h · 2024 年6 月 11 日 10:25

我们在AWS 的集群，TiKV 设置的是2个实例，但是世纪上由于一些异常，导致tikv 有4个示例，其中有一个实例是挂掉的，导致br 在备份时有一些 warn 级别的告警，不知道是不是这个原因导致的

目前tikv 的store 分布如下：

tikv:
    bootStrapped: true
    failoverUID: 186982df-36ba-4391-b21b-40bba57a2222
    failureStores:
      "104":
        createdAt: "2023-11-29T14:39:14Z"
        podName: basicai-tikv-2
        storeID: "104"
    image: pingcap/tikv:v6.1.0
    phase: Scale
    statefulSet:
      collisionCount: 0
      currentReplicas: 3
      currentRevision: basicai-tikv-654cf466dd
      observedGeneration: 8
      readyReplicas: 3
      replicas: 3
      updateRevision: basicai-tikv-654cf466dd
      updatedReplicas: 3
    stores:
      "1":
        id: "1"
        ip: basicai-tikv-0.basicai-tikv-peer.tidb-cluster.svc
        lastTransitionTime: "2024-06-05T13:56:51Z"
        leaderCount: 1030
        podName: basicai-tikv-0
        state: Up
      "6":
        id: "6"
        ip: basicai-tikv-1.basicai-tikv-peer.tidb-cluster.svc
        lastTransitionTime: "2024-06-05T13:55:12Z"
        leaderCount: 1030
        podName: basicai-tikv-1
        state: Up
      "104":
        id: "104"
        ip: basicai-tikv-2.basicai-tikv-peer.tidb-cluster.svc
        lastTransitionTime: "2024-06-07T15:38:32Z"
        leaderCount: 1037
        podName: basicai-tikv-2
        state: Up
      "30001":
        id: "30001"
        ip: basicai-tikv-3.basicai-tikv-peer.tidb-cluster.svc
        lastTransitionTime: "2023-12-04T13:44:47Z"
        leaderCount: 0  <----------- basicai-tikv-3 这个POD 本身不存在，但是却有 3001 这个store
        podName: basicai-tikv-3
        state: Down

哈喽沃德 · 2024 年6 月 12 日 00:31

用的什么盘？

哈喽沃德 · 2024 年6 月 12 日 00:32

OSS就考试网络问题。

小于同学 · 2024 年6 月 12 日 02:29

网络没问题吗

TiDBer_RywnG56h · 2024 年6 月 12 日 04:23

@小于同学 @小于同学和磁盘网络都没关系，我通过pd-ctl 清理了这个无效的store 就好了

zhaokede · 2024 年6 月 12 日 04:41

优秀。

lemonade010 · 2024 年6 月 12 日 06:05

优秀，自问自

jiayou64 · 2024 年6 月 12 日 06:08

学习下

system · 2024 年8 月 11 日 06:09

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。