【TiDB 使用环境】生产环境
【TiDB 版本】6.1.2
【操作系统】 redhat7
【部署方式】lxc部署
【集群数据量】
【集群节点数】
【问题复现路径】部分changefeed往kafka集群同步数据,由于kafka集群部分节点地址变化导致ticdc写入失败
【遇到的问题:问题现象及影响】监控系统无法感知此类情况,changefeed lag正常没有增长,changefeed的状态也是normal,但error有输出类似下面错误信息,实际上部分changefeed写入kafka失败。是不是6.1版本的cdc写kafka不需要写入成功的应答,我查看文档似乎应答参数是从7.1版本开始才有,默认-1,就是需要kafka所有副本都写入成功才应答。6.5之前版本没有这个参数,是不是默认不需要应答,感觉只有这样才会导致监控无法感知
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【复制黏贴 ERROR 报错的日志】
query changfeed:
state:normal,error_addr:1.1.5.19:8300,error_code:CDC:ErrOwnerUnknown,error_message:[CDC:ErrKafkaSendMessage]kafka send message failed: kafka: Failed to deliver 1 messages.
state:normal,error_addr:1.1.5.9:8300,error_code:CDC:ErrProcessorUnknown,error_message:[CDC:ErrKafkaNewSaramaProducer]new sarama producer: dial tcp ...:9092: i/o timeout
cdc进程日志:
[2025/04/24 06:44:50.742 +08:00] [WARN] [metrics.go:233] [“kafka cluster unreachable, use historical brokers to collect kafka broker level metrics”] [namespace=default] [changefeed=
comment-replication-comment-extension] [role=processor] [duration=47.457µs] [error=“write tcp 1.1.5.19:55138->1.1.11.17:9092: write: broken pipe”]
【其他附件:截图/日志/监控】