BR 备份非常缓慢

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.1.0
我们有2个生产环境,每个环境的TiDB 的拓扑是一样的,资源规格也是一样的(都是通过operatopr 部署在K8S 中的);数据量、查询的QPS 等也差不多。但是其中一个环境BR 备份只要 37分钟,而另一个环境却要6小时,

请问有什么排查思路呢?

备份的数据量,网络情况是否一样

数据量在一个量级,备份慢(6小时)的这个集群备份到对象存储后有35GB, 备份快的这个集群(37分钟)备份到对象存储后有24.5GB。

网络状况都是一样的,快的这个集群是阿里云,备份到OSS;慢的集群是在AWS 上,备份到S3。我觉得不会存在网络瓶颈。

而且,备份慢的这个集群,也是最近半个月才开始变慢的。

我们在AWS 的集群,TiKV 设置的是2个实例,但是世纪上由于一些异常,导致tikv 有4个示例,其中有一个实例是挂掉的,导致br 在备份时有一些 warn 级别的告警,不知道是不是这个原因导致的

目前tikv 的store 分布如下:

tikv:
    bootStrapped: true
    failoverUID: 186982df-36ba-4391-b21b-40bba57a2222
    failureStores:
      "104":
        createdAt: "2023-11-29T14:39:14Z"
        podName: basicai-tikv-2
        storeID: "104"
    image: pingcap/tikv:v6.1.0
    phase: Scale
    statefulSet:
      collisionCount: 0
      currentReplicas: 3
      currentRevision: basicai-tikv-654cf466dd
      observedGeneration: 8
      readyReplicas: 3
      replicas: 3
      updateRevision: basicai-tikv-654cf466dd
      updatedReplicas: 3
    stores:
      "1":
        id: "1"
        ip: basicai-tikv-0.basicai-tikv-peer.tidb-cluster.svc
        lastTransitionTime: "2024-06-05T13:56:51Z"
        leaderCount: 1030
        podName: basicai-tikv-0
        state: Up
      "6":
        id: "6"
        ip: basicai-tikv-1.basicai-tikv-peer.tidb-cluster.svc
        lastTransitionTime: "2024-06-05T13:55:12Z"
        leaderCount: 1030
        podName: basicai-tikv-1
        state: Up
      "104":
        id: "104"
        ip: basicai-tikv-2.basicai-tikv-peer.tidb-cluster.svc
        lastTransitionTime: "2024-06-07T15:38:32Z"
        leaderCount: 1037
        podName: basicai-tikv-2
        state: Up
      "30001":
        id: "30001"
        ip: basicai-tikv-3.basicai-tikv-peer.tidb-cluster.svc
        lastTransitionTime: "2023-12-04T13:44:47Z"
        leaderCount: 0  <----------- basicai-tikv-3 这个POD 本身不存在,但是却有 3001 这个store
        podName: basicai-tikv-3
        state: Down

用的什么盘?

OSS就考试网络问题。

网络没问题吗

@小于同学 @小于同学 和磁盘网络都没关系,我通过pd-ctl 清理了这个无效的store 就好了

优秀。

优秀,自问自

学习下