cdc重启后,空region开始下降

空region几天前开始增多,今天cd重启过后,region下降
为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】

生产
【概述】 场景 + 问题概述

【备份和数据迁移策略逻辑】

【背景】 做过哪些操作

【现象】 业务和数据库现象

【问题】 当前遇到的问题

【业务影响】

【TiDB 版本】
5.1.3
【附件】

  • 相关日志、配置文件、Grafana 监控(https://metricstool.pingcap.com/)
  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息
  • TiDB-Overview 监控
  • 对应模块的 Grafana 监控(如有 BR、TiDB-binlog、TiCDC 等)
  • 对应模块日志(包含问题前后 1 小时日志)


为什么会出现这种现象?

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

可能只是巧合,从监控中看在同一时间点除了空 region 数量在减少,learner peer 和 extra peer 也都相应地较少了,CPU 使用率和 goroutine count 都有明显上升,可以检查下在该时间点集群调度类参数有无调整,或者发生了其他变更

看一下enable-cross-table-merge参数的设置

2 个赞

参数是开启的

无其他操作。只是重启了cdc

enable-cross-table-merge = true:开启跨 Region 合并功能,减少空 Region 的数量

2 个赞

今天早上又重启了cdc,现象一致。

您把enable-cross-table-merge参数设置为false试试
enable-cross-table-merge 用于开启跨表 Region 的合并。当设置为 false 时,PD 不会合并不同表的 Region。该选项只在键类型为 “table” 时生效。

2 个赞

有一个可能的原因:TiCDC 会消耗上游集群的部分资源(包括 CPU/IO/网络等)用于 TiKV 输出数据变更事件,如果上游集群增量数据和 TiCDC 的同步任务较多的话,开销可能会更大点,在 TiCDC 重启释放了部分资源后,加速了上游集群调度任务的完成,可以从监控中看下 TiKV 资源使用以及 PD 中 operator 完成速率情况

1 个赞


资源没什么问题,感觉好像是cdc锁住了空region,直到重启释放之后才开始merge

这个倒是有可能

1 个赞

看现象感觉是这样,cdc给你一些空region加了锁一样,导致无法合并。

我这边观察到的现象是cdc正常的运行的时候是没问题的,其中一个任务停止之后就会导致region无法合并,空region一直在上升

TiCDC 停止其中一个任务后,PD leader 日志中有无什么提示信息?看下是否有和调度相关的内容。

1 个赞

突然想起,你是觉得空region下降不好还是说想知道为啥下降?

1 个赞

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。