感谢反馈信息,从目前的 TiKV log 查看一些关键 log 信息。
[2020/06/12 14:16:40.158 +08:00] [ERROR] [kv.rs:613] ["KvService::batch_raft send response fail"] [err=RemoteStopped]
[2020/06/12 14:16:40.158 +08:00] [ERROR] [kv.rs:613] ["KvService::batch_raft send response fail"] [err=RemoteStopped]
[2020/06/12 14:16:40.158 +08:00] [ERROR] [kv.rs:613] ["KvService::batch_raft send response fail"] [err=RemoteStopped]
初步判断是 v4.0.0-rc.* 版本的 bug raft 大小限制的过大,超过 gRPC 传输通信限制导致 raft message 卡住的问题,所以影响了 region 的调度。
将 TiKV 集群的 raft-max-size-per-msg 这个配置调小,降低 raft message 大小,观察一下是否恢复 region 调度。
参数位置:https://github.com/tikv/tikv/blob/v4.0.0-rc.2/tests/integrations/config/test-custom.toml#L105
如果恢复不了,麻烦提供新的 TIKV log 以及在 TIKV data 目录下的 last_tikv.toml 文件。
如果可以恢复,那么建议下线后,先将 TiDB 集群升级到 v4.0.0 版本。