ticdc到kafka那边经常丢消息,有没有什么办法,从ticdc源头侧做一个数据记录,判断增量数据的传输过程中是否出现问题。

【 TiDB 使用环境】生产环境
【 TiDB 版本】v6.5.0
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】ticdc到kafka那边经常丢消息,有没有什么办法,从ticdc源头侧做一个数据记录,判断增量数据的传输过程中是否出现问题。

最近遇到一个比较尴尬的问题:
1.tidb主库集群设置的Gc时间为72小时
2.kafka集群设置的消息保留时间为24小时
3.自从上一次做全量+增量后,经过一周时间左右,研发人员反馈有丢数据的问题发生。
4.此时,再想从他们丢数据的时间点指定tso,重新做增量已经超过了gc时间。

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

试试cloudcanal

有相关日志发下

验证 CDC 配置:仔细检查 ticdc 的配置以确保其设置正确。 确保 ticdc 实例正在运行并正确连接到 TiDB 集群。 确认已为 CDC 正确配置相关表和数据库。

监控 ticdc 指标:监控 ticdc 指标以深入了解其性能和任何潜在问题。 注意与 CDC 错误、复制滞后或任何异常行为相关的指标。 这可以帮助您识别可能导致数据丢失的潜在瓶颈或错误。 您可以使用 Prometheus 和 Grafana 等工具来监控 ticdc 指标。

启用 Ticdc 调试模式:ticdc 提供了一种调试模式,允许您从源端输出数据记录。 通过启用调试模式,您可以捕获 ticdc 正在生成和传输的数据记录。 这可以帮助您确定传输过程中是否存在任何问题或数据丢失。 您可以通过在 ticdc 配置文件中将 ticdc.enable-debug-mode 配置选项设置为 true 来启用调试模式。

验证 Kafka 配置:仔细检查您的 Kafka 配置以确保它已正确设置以处理预期的负载和消息保留时间。 确保 Kafka 集群有足够的资源(存储、内存等),并适当设置保留时间,以避免过早删除消息。

Check Network Connectivity:验证ticdc实例和Kafka集群之间的网络连通性。 确保没有网络问题或防火墙规则阻止两者之间的通信。

考虑数据复制技术:根据应用的具体要求和约束,您可以考虑使用其他数据复制技术,例如 TiDB Binlog 或 TiDB 数据迁移 (DM) 工具。 这些工具为数据复制提供了额外的控制和监控功能,有助于降低数据丢失风险。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。