batch insert 导入带 emoji 的数据到使用 utf8mb4 的表中报错

感谢支持~~

今天发现原来不是 emoji 的问题,是我们导入这些数据里面,有几个无法识别的 utf8 coding:

\ufffd,具体来说就是这个� ,导致触发了 tidb 的 utf8 check,其实并非不支持 emoji

官方排错文档有说:https://docs.pingcap.com/tidb/stable/tidb-troubleshooting-map#62-data-migration

另外参考一篇 blog 也有提到:https://izualzhy.cn/interesting-encode,\ufffd这个非常常见,是无法转换的时候就会转成这个编码的。

目前的疑点就剩一个:在 shell 里面直接执行 INSERT SQL Query,是可以成功的,没有触发检查。