TiSpark读取tikv数据中文乱码

使用 val df = sqlContext.read
.format(“tidb”)
.options(tidbOptions)
.option(“database”, dbName)
.option(“table”, tableName)
.option(“useUnicode”,“true”)
.option(“characterEncoding”,“utf8”)
.load() 读取tikv数据中文乱码。

但是 val df = sqlContext.read
.format(“jdbc”)
.options(tidbOptions)
.option(“database”, dbName)
.option(“table”, tableName)
.option(“useUnicode”,“true”)
.option(“characterEncoding”,“utf8”)
.load() 读取的结果正常。

tikv和tispark都是最新的,spark集群2.4.6版。
数据库表字符集:CHARACTER SET utf8 COLLATE utf8_bin;

请问问题解决了吗?

暂时还没有解决

收到,请问下 TiDB 集群是什么版本?

tidb集群是4.0.8版本的,tispark是2.3.10版本的

收到,我们这边跟进排查下。

好的。

麻烦在 driver 和 executor 的 jvm 启动参数上加上 -Dfile.encoding=UTF-8

好的,谢谢~

现在正常了吗?

我加了这两个配置之后就正常了,感谢~

好的。