使用场景:部署了 pd + tikv 作为纯 kv 使用,使用 go-client 的 rawkv 连接 pd 进行读写,发现同一个 client 使用一段时间后就会出现 loadRegion from PD failed, key: “395F3130303130343235343932395F30303030303030313431”, err: rpc error 的报错,导致超时,且无法自动恢复,重新 new client 也无法解决,只能重启实例。
报错的同时,其他实例连接 pd 也是正常的,pd 状态也是正常,请问下可能是什么原因?
查下 PD 的日志,有没有异常
然后 tikv 的日志,也需要查下
如果能找到异常的日志,可以在传递关键的信息上来,帮你做分析看看
不过,你得先补充下版本号
pd+tikv的日志发出来,这中问题只能通过日志来分析了
6.5.8 版本已补充
没有报错日志,打开了 debug 日志后看到有很多 grpc 的报错[2024/04/19 18:03:20.258 +08:00] [DEBUG] [lease.go:115] [“failed to receive lease keepalive request from gRPC stream”] [error=“rpc error: code = Canceled desc = context canceled”] 但不确定是否与请求有关
啥配置搭的集群?
pd 及 tidb server 都没有报错日志?
还是需要从日志看起