# TiDB 集群问题导图
## 1. 服务不可用
### 1.1 客户端报 `"Region is Unavailable"` 错误
- 1.1.1 `"Region is Unavailable"` 一般是由于 region 在一段时间不可用导致(可能会遇到 `"TiKV server is busy"` 或者发送给 TiKV 的请求由于 `not leader` 或者 `epoch not match` 被打回,或者请求 TiKV 超时等),TiDB 内部会进行 `backoff` 重试机制,`backoff` 的时间超过了一定阈值(默认 20s),就会报错给客户端,如果 `backoff` 在阈值内该错误对于客户端是无感知的。
- 1.1.2 多台 TiKV 同时 OOM 导致 region 在一定时期内没有 leader ,见案例 [case-991](./diagnose-case-study/case991.md)。
- 1.1.3 TiKV 报 `TiKV server is busy`,超过 `backoff` 时间,参考 4.3 `TiKV server is busy` 属于内部流控机制,后续可能不计入 `backoff` 时间,正在改善。
- 1.1.4 多台 TiKV 启动不了导致 region 没有 leader。单台物理主机部署多个 TiKV 实例,一个物理机挂掉,由于 label 配置错了导致 region 没有 leader ,见案例 [case-228](./diagnose-case-study/case228.md)。
- 1.1.5 follower apply 落后,成为 leader 之后把收到的请求以 `epoch not match` 理由打回,见案例 [case-958](./diagnose-case-study/case958.md)(TiKV 内部需要优化改机制)。
### 1.2 PD 异常导致服务不可用,请查看 5 PD 问题
## 2. Latency 明显升高
该文件已被截断。 显示原文