十亿级别的表使用tikv client java 去获取 catelog一直失败，gRpc总是断，这个需要怎么处理呢？

迷人的Ti · 2023 年10 月 25 日 08:39

【 TiDB 使用环境】生产环境
【 TiDB 版本】4.0.16
【复现路径】tikv client java 获取订阅的十亿级别表，region特别多，第一次获取catelog正常，tableID可获取到，成功建立cdc推送的gRpc，会推送cdc数据过来，但当接收到error事件，需要重新建立cdc连接时，需要先获取catelog来获取tableID时就会报错。
【遇到的问题：问题现象及影响】
2023-10-24 09:57:44.892 [tidb-extractor-6-thd-0] WARN org.tikv.common.region.AbstractRegionStoreClient - leader for region[12] is not found, it is possible that network partition occurred 2023-10-24 09:57:44.892 [tidb-extractor-6-thd-0] INFO org.tikv.common.region.AbstractRegionStoreClient - try grpc forward: region[12] 2023-10-24 09:57:45.197 [tidb-extractor-6-thd-0] WARN org.tikv.common.region.AbstractRegionStoreClient - No store available, retry: region[12] 2023-10-24 09:57:45.197 [tidb-extractor-6-thd-0] WARN org.tikv.common.operation.RegionErrorHandler - request failed because of: DEADLINE_EXCEEDED: deadline exceeded after 19.999203340s. [closed=[], open=[[remote_addr=/172.21.77.94:20160]]]
说明：网络是通的

Billmay表妹 · 2023 年10 月 25 日 09:07

出现了关于 region leader 未找到和没有可用的 store 的警告。这可能是由于网络分区或其他故障导致的。

当 TiKV 客户端无法找到 region 的 leader 或没有可用的 store 时，可能会导致请求失败。这可能是由于网络问题、TiKV 节点故障或其他原因导致的。

为了解决这个问题，您可以尝试以下几个步骤：

检查网络连接：确保 TiKV 和 TiDB 之间的网络连接正常，并且没有任何网络故障或分区。
检查 TiKV 集群状态：使用 TiDB Dashboard 或者 TiKV 的监控工具（如 Prometheus 和 Grafana）来检查 TiKV 集群的状态。确保所有的 TiKV 节点都处于正常运行状态，并且没有出现任何异常。
检查 TiKV 配置：检查 TiKV 的配置文件，确保配置正确，并且没有任何配置问题导致网络连接或者 store 不可用。
调整 TiKV 配置：根据 TiKV 的负载和网络情况，您可以尝试调整 TiKV 的一些配置参数，如 grpc-concurrency、grpc-keepalive-time、grpc-keepalive-timeout 等，以优化网络连接和 store 的可用性。

Fly-bird · 2023 年10 月 25 日 09:13

region特别多，这个问题关注了嘛，有错误嘛

迷人的Ti · 2023 年10 月 25 日 11:25

region有几千个，不知道是不是这个导致的报错，上面的报错信息里面的region[12]里面拿到的是所有mDB开头的数据，应该是跟表的catelog有关系

TiDBer_TR5RPdsl · 2025 年1 月 13 日 10:08

请问这个解决了嘛，怎么解决的。

有猫万事足 · 2025 年1 月 13 日 10:38

有问题单开问。挖坟连续2条一样的，会被认为是水贴。

需要追踪问题的。

这里选关注。

as波哥 · 2025 年1 月 18 日 03:55

出现了关于 region leader 未找到和没有可用的 store 的警告。这可能是由于网络分区或其他故障导致的。

当 TiKV 客户端无法找到 region 的 leader 或没有可用的 store 时，可能会导致请求失败。这可能是由于网络问题、TiKV 节点故障或其他原因导致的。

为了解决这个问题，您可以尝试以下几个步骤：

检查网络连接：确保 TiKV 和 TiDB 之间的网络连接正常，并且没有任何网络故障或分区。
检查 TiKV 集群状态：使用 TiDB Dashboard 或者 TiKV 的监控工具（如 Prometheus 和 Grafana）来检查 TiKV 集群的状态。确保所有的 TiKV 节点都处于正常运行状态，并且没有出现任何异常。
检查 TiKV 配置：检查 TiKV 的配置文件，确保配置正确，并且没有任何配置问题导致网络连接或者 store 不可用。
调整 TiKV 配置：根据 TiKV 的负载和网络情况，您可以尝试调整 TiKV 的一些配置参数，如 grpc-concurrency、grpc-keepalive-time、grpc-keepalive-timeout 等，以优化网络连接和 store 的可用性。

The-Fallen-Angel · 2025 年1 月 20 日 10:24

网络是通的，可以分析下延迟。