十亿级别的表使用tikv client java 去获取 catelog一直失败,gRpc总是断,这个需要怎么处理呢?

【 TiDB 使用环境】生产环境
【 TiDB 版本】4.0.16
【复现路径】tikv client java 获取订阅的十亿级别表,region特别多,第一次获取catelog正常,tableID可获取到,成功建立cdc推送的gRpc,会推送cdc数据过来,但当接收到error事件,需要重新建立cdc连接时,需要先获取catelog来获取tableID时就会报错。
【遇到的问题:问题现象及影响】
2023-10-24 09:57:44.892 [tidb-extractor-6-thd-0] WARN org.tikv.common.region.AbstractRegionStoreClient - leader for region[12] is not found, it is possible that network partition occurred 2023-10-24 09:57:44.892 [tidb-extractor-6-thd-0] INFO org.tikv.common.region.AbstractRegionStoreClient - try grpc forward: region[12] 2023-10-24 09:57:45.197 [tidb-extractor-6-thd-0] WARN org.tikv.common.region.AbstractRegionStoreClient - No store available, retry: region[12] 2023-10-24 09:57:45.197 [tidb-extractor-6-thd-0] WARN org.tikv.common.operation.RegionErrorHandler - request failed because of: DEADLINE_EXCEEDED: deadline exceeded after 19.999203340s. [closed=[], open=[[remote_addr=/172.21.77.94:20160]]]
说明:网络是通的

出现了关于 region leader 未找到和没有可用的 store 的警告。这可能是由于网络分区或其他故障导致的。

当 TiKV 客户端无法找到 region 的 leader 或没有可用的 store 时,可能会导致请求失败。这可能是由于网络问题、TiKV 节点故障或其他原因导致的。

为了解决这个问题,您可以尝试以下几个步骤:

  1. 检查网络连接:确保 TiKV 和 TiDB 之间的网络连接正常,并且没有任何网络故障或分区。
  2. 检查 TiKV 集群状态:使用 TiDB Dashboard 或者 TiKV 的监控工具(如 Prometheus 和 Grafana)来检查 TiKV 集群的状态。确保所有的 TiKV 节点都处于正常运行状态,并且没有出现任何异常。
  3. 检查 TiKV 配置:检查 TiKV 的配置文件,确保配置正确,并且没有任何配置问题导致网络连接或者 store 不可用。
  4. 调整 TiKV 配置:根据 TiKV 的负载和网络情况,您可以尝试调整 TiKV 的一些配置参数,如 grpc-concurrencygrpc-keepalive-timegrpc-keepalive-timeout 等,以优化网络连接和 store 的可用性。

region特别多,这个问题关注了嘛,有错误嘛

region有几千个,不知道是不是这个导致的报错,上面的报错信息里面的region[12]里面拿到的是所有mDB开头的数据,应该是跟表的catelog有关系