TiCDC同步varbinary以及mediumblob至kafka的问题

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】6.0.1
【复现路径】做过哪些操作出现的问题
【遇到的问题:问题现象及影响】
【资源配置】
【附件:截图/日志/监控】
写到kafka上的数据是乱码的

kakfa的message为string,似乎直接把二进制强转了,有什么解决办法么

你采用的是什么协议? canal-json 吗?我们有一个文档 PR 描述这个问题,不过还没来得及合并。
https://github.com/pingcap/docs/pull/13832

我这边使用的是protobuf协议

可以尝试使用字节数组(byte array)来表示消息

character-set = “auto”

指定源数据文件的字符集,Lightning 会在导入过程中将源文件从指定的字符集转换为 UTF-8 编码。

该配置项目前仅用于指定 CSV 文件的字符集。只支持下列选项:

- utf8mb4:源数据文件使用 UTF-8 编码。

- GB18030:源数据文件使用 GB-18030 编码。

- GBK:源数据文件使用 GBK 编码(GBK 编码是对 GB-2312 字符集的拓展,也被称为 Code Page 936)。

- binary:不尝试转换编码(默认)。

留空此配置将默认使用 “binary”,即不尝试转换编码。

需要注意的是,Lightning 不会对源数据文件的字符集做假定,仅会根据此配置对数据进行转码并导入。

如果字符集设置与源数据文件的实际编码不符,可能会导致导入失败、导入缺失或导入数据乱码。