TIKV各种锁持续时间异常,TIDB GC无法正常执行

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.0
【复现路径】暂无
【遇到的问题:问题现象及影响】
问题:
1.Tikv持续收到相关,无法消除【TiKV scheduler latch wait duration seconds more than 1s】、
【TiKV scheduler context total】
2. TIDB GC进程无法正常进行
3. client日志报 Tikv server is busy

个人排查结果:
当前集群昨天Juicefs 元数据集群,客户端只有Juicefs client,这些问题是在使用一段时间后出现的
我这边找官方相关告警处理,并没有找下符合我这边遇到的问题

【资源配置】
3台物理机,每个物理机2个NVME磁盘,每个机器部署了2个TIKV实例
【附件:截图/日志/监控】
===============================监控相关截图====================
1.机器性能监控如下:
整体机器资源使用率并不高

2.gRPC相关监控
各种锁持续的时间非常长

3.各组件CPU监控:
其中一个tikv scheduler cpu一直高于其他5各tikv

4.GC相关面板:
gc savepoint停留在很久以前

==============================日志相关截图=================
tidb日志:
报server is busy都是同一个region id

gc相关日志:

tikv scheduler cpu异常 日志
大量如下告警日志

日志涉及的region信息:

你这个后来是重启好了吗 还是过了一阵子自己好了的,这期间有没有进行大量数据处理

上个集群状态先?

只重启过TIDB服务,但是没有效果

集群服务状态都是正常的吧:

那大量读写 或者回滚有吗 你这是生成库还是测试库 估计要重启TiKV

通过dashboard 看下热点流量试试,

数据锁多,说明有业务层面存在冲突

region [15025515],我建议你查下关联的是那个表,为什么会导致这么严重的冲突


这个版本量符合业务上的预期么?

生产库

这个集群没有上层表,Juicefs client直接读写TIKV
流量热点图: