TIKV各种锁持续时间异常,TIDB GC无法正常执行

TiDBer_27OdodiJ · 2023 年3 月 27 日 13:45

【 TiDB 使用环境】生产环境
【 TiDB 版本】v5.4.0
【复现路径】暂无
【遇到的问题：问题现象及影响】
问题:
1.Tikv持续收到相关,无法消除【TiKV scheduler latch wait duration seconds more than 1s】、
【TiKV scheduler context total】
2. TIDB GC进程无法正常进行
3. client日志报 Tikv server is busy

个人排查结果:
当前集群昨天Juicefs 元数据集群,客户端只有Juicefs client,这些问题是在使用一段时间后出现的
我这边找官方相关告警处理,并没有找下符合我这边遇到的问题

【资源配置】
3台物理机，每个物理机2个NVME磁盘，每个机器部署了2个TIKV实例
【附件：截图/日志/监控】
===============================监控相关截图====================
1.机器性能监控如下：
整体机器资源使用率并不高

2.gRPC相关监控
各种锁持续的时间非常长

3.各组件CPU监控:
其中一个tikv scheduler cpu一直高于其他5各tikv

4.GC相关面板:
gc savepoint停留在很久以前

==============================日志相关截图=================
tidb日志:
报server is busy都是同一个region id

gc相关日志:

tikv scheduler cpu异常日志
大量如下告警日志

日志涉及的region信息:

JonnieLee · 2023 年3 月 28 日 01:41

你这个后来是重启好了吗还是过了一阵子自己好了的，这期间有没有进行大量数据处理

xfworld · 2023 年3 月 28 日 02:27

上个集群状态先？

TiDBer_27OdodiJ · 2023 年3 月 28 日 02:47

只重启过TIDB服务,但是没有效果

TiDBer_27OdodiJ · 2023 年3 月 28 日 02:50

集群服务状态都是正常的吧:

JonnieLee · 2023 年3 月 28 日 02:56

那大量读写或者回滚有吗你这是生成库还是测试库估计要重启TiKV

xfworld · 2023 年3 月 28 日 02:57

通过dashboard 看下热点流量试试，

数据锁多，说明有业务层面存在冲突

region [15025515]，我建议你查下关联的是那个表，为什么会导致这么严重的冲突

这个版本量符合业务上的预期么？

TiDBer_27OdodiJ · 2023 年3 月 28 日 02:59

生产库

TiDBer_27OdodiJ · 2023 年3 月 28 日 03:03

这个集群没有上层表,Juicefs client直接读写TIKV
流量热点图: