tikv raw_put出现大量超时

【TiKV 使用环境】生产环境
【TiKV 版本】v6.5.1
【操作系统】centos7.9
【部署方式】云上部署(什么云)/机器部署(什么机器配置、什么硬盘)
3台物理机、 512GB内存、每台物理机2块7.6TB nvme盘、每块nvme盘对应一个tikv服务

【集群数据量】
store size: 400GB
region size:4TB

【集群节点数】
3台物理机 6个tikv-server
【问题复现路径】做过哪些操作出现的问题
从其他集群通过raw_batch_put 导入数据
qps如图:

batch size:

【遇到的问题:问题现象及影响】
raw_put 超时:

"ErrorMessage":"wait recvLoop: context deadline exceeded","ErrorMessageVerbose":"context deadline exceeded\nwait recvLoop"

tikv server timeout\ngithub.com/tikv/client-go/v2/error.init\n\t/root/gopro/src/gateway/vendor/github.com/tikv/client-go/v2/error/error.go:53\nruntime.doInit\n\t/root/go/src/runtime/proc.go:6506\nruntime.doInit\n\t/root/go/src/runtime/proc.go:6483\nruntime.doInit\n\t/root/go/src/runtime/proc.go:6483\nruntime.doInit\n\t/root/go/src/runtime/proc.go:6483\nruntime.doInit\n\t/root/go/src/runtime/proc.go:6483\nruntime.doInit\n\t/root/go/src/runtime/proc.go:6483\nruntime.doInit\n\t/root/go/src/runtime/proc.go:6483\nruntime.main\n\t/root/go/src/runtime/proc.go:233\nruntime.goexit\n\t/root/go/src/runtime/asm_amd64.s:1598\ngithub.com/tikv/client-go/v2/internal/retry.(*Backoffer).BackoffWithCfgAndMaxSleep\n\t/root/gopro/src/gateway/vendor/github.com/tikv/client-go/v2/internal/retry/backoff.go:160\ngithub.com/tikv/client-go/v2/internal/retry.(*Backoffer).Backoff\n\t/root/gopro/src/gateway/vendor/github.com/tikv/client-go/v2/internal/retry/backoff.go:120\ngithub.com/tikv/client-go/v2/rawkv.(*Client).sendReq\n\t/root/gopro/src/gateway/vendor/github.com/tikv/client-go/v2/rawkv/rawkv.go:710\ngithub.com/tikv/client-go/v2/rawkv.(*Client).PutWithTTL\n\t/root/gopro/src/gateway/vendor/github.com/tikv/client-go/v2/rawkv/rawkv.go:345\ngithub.com/tikv/client-go/v2/rawkv.(*Client).Put\n\t/root/gopro/src/gateway/vendor/github.com/tikv/client-go/v2/rawkv/rawkv.go:398\ngateway/pkg/tikv.(*Client).Put\n\t/root/gopro/src/gateway/pkg/tikv/tikv.go:227\ngateway/pkg/tikv.

raw_get请求正常

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
【其他附件:截图/日志/监控】
平时有一点点网络丢包

凌晨04:16左右
pending peer陡增

hot-region-scheduler到达限制值

scheduler operator timeout

tikv-server内存暴涨,storage.block-cache.cap只配了128MB:

log replication reject暴涨

raft log lag暴涨:

raw_put, new与finish有GAP:

snapshot陡降:

磁盘吞吐,持续几天有些压力,但似乎还没到瓶颈:

【恢复手段】
重启107节点上的两个tikv-server后,恢复正常

【根因】
暂时未知,现象和https://github.com/tikv/tikv/issues/14740 很像,但没出现issue里面的leader跌0的现象,咨询了开发大佬 pingyu,他说6.5版本没有这个问题

v6.5 有点老了,有机会可以升到 v8.5

如果问题定位的话,首先版本较老,再者 rawkv 大家用得少,估计很难有环境帮你复现

还在评估从v6.5.1升到v6.5.12还是升级到v8.5.3,生产环境不敢尝试太新的版本

store size: 400GB
region size:4TB

确认一下这两个值是正确的吗?
如果是正确的,region size 4TB 的目的是什么

grafana显示的,有什么办法获取准确值吗?