loadRegion from PD failed 使用 tikv raw client 出现不可恢复报错

使用场景:部署了 pd + tikv 作为纯 kv 使用,使用 go-client 的 rawkv 连接 pd 进行读写,发现同一个 client 使用一段时间后就会出现 loadRegion from PD failed, key: “395F3130303130343235343932395F30303030303030313431”, err: rpc error 的报错,导致超时,且无法自动恢复,重新 new client 也无法解决,只能重启实例。
报错的同时,其他实例连接 pd 也是正常的,pd 状态也是正常,请问下可能是什么原因?

查下 PD 的日志,有没有异常
然后 tikv 的日志,也需要查下

如果能找到异常的日志,可以在传递关键的信息上来,帮你做分析看看

不过,你得先补充下版本号

pd+tikv的日志发出来,这中问题只能通过日志来分析了

6.5.8 版本已补充

没有报错日志,打开了 debug 日志后看到有很多 grpc 的报错[2024/04/19 18:03:20.258 +08:00] [DEBUG] [lease.go:115] [“failed to receive lease keepalive request from gRPC stream”] [error=“rpc error: code = Canceled desc = context canceled”] 但不确定是否与请求有关


在 client 中找到这个报错的地方,应该是 GetRegion 的请求引起的,但是我试了下在 put 之前直接 GetPDClient().GetRegion 也是正常的,很奇怪

啥配置搭的集群?

pd 及 tidb server 都没有报错日志?

还是需要从日志看起