ticdc任务意外中断未停止,导致空region无法合并。learner-peer一直增加

版本:5.1.3

已复现多次

ticdc任务意外中断未停止,导致空region无法合并。learner-peer一直增加,删除任务或者重启ticdc 恢复正常,确认是否是bug.

[root@fc-tidb09 ~]# tiup ctl:v5.1.2 cdc changefeed create --pd=http://10.101.2.112:2379 --sink-uri=“tidb://root:xxxx@10.100.103.22:4000?worker-count=16&max-txn-row=512” --changefeed-id=“tidb-repl-task” --sort-engine=“unified” --config tidbtotidb.toml

同步的库表数量多

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
生产

【概述】 场景 + 问题概述

【备份和数据迁移策略逻辑】

【背景】 做过哪些操作

【现象】 业务和数据库现象

【问题】 当前遇到的问题

【业务影响】

【TiDB 版本】

【附件】

  • 相关日志、配置文件、Grafana 监控(https://metricstool.pingcap.com/)
  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息
  • TiDB-Overview 监控
  • 对应模块的 Grafana 监控(如有 BR、TiDB-binlog、TiCDC 等)
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

Hello~ 麻烦参考一下 【SOP 系列 22】TiDB 集群诊断信息收集 Diag Collector 使用手册 v0.4.0 提供一下相关 log 和监控信息,我们分析一下.谢谢 ~

您好,从您上传的监控上看停掉 ticdc 之后 learner count、empty region count 也没有持续下降,这应该是其他原因导致的。理论上看 cdc 除了会在 TiKV 端消耗一些资源外,没有机制会阻碍 region merge 或副本调度,cdc 应该只是让这个现象变明显了。
为了解决您的根本问题,麻烦上传一下集群时间较长的监控以便确认 learner count、empty region count 的趋势,以及这段时间内 PD 和 TiKV 的日志,谢谢了。

该主题在最后一个回复创建后60天后自动关闭。不再允许新的回复。