TiSpark读取tikv数据中文乱码

William0423 · 2020 年12 月 1 日 08:59

使用 val df = sqlContext.read
.format(“tidb”)
.options(tidbOptions)
.option(“database”, dbName)
.option(“table”, tableName)
.option(“useUnicode”,“true”)
.option(“characterEncoding”,“utf8”)
.load() 读取tikv数据中文乱码。

但是 val df = sqlContext.read
.format(“jdbc”)
.options(tidbOptions)
.option(“database”, dbName)
.option(“table”, tableName)
.option(“useUnicode”,“true”)
.option(“characterEncoding”,“utf8”)
.load() 读取的结果正常。

tikv和tispark都是最新的，spark集群2.4.6版。
数据库表字符集：CHARACTER SET utf8 COLLATE utf8_bin;

不懂就问 · 2020 年12 月 3 日 02:53

请问问题解决了吗？

William0423 · 2020 年12 月 3 日 02:55

暂时还没有解决

不懂就问 · 2020 年12 月 4 日 06:59

收到，请问下 TiDB 集群是什么版本？

William0423 · 2020 年12 月 4 日 08:26

tidb集群是4.0.8版本的，tispark是2.3.10版本的

不懂就问 · 2020 年12 月 4 日 09:03

收到，我们这边跟进排查下。

William0423 · 2020 年12 月 4 日 14:46

好的。

不懂就问 · 2020 年12 月 8 日 06:06

麻烦在 driver 和 executor 的 jvm 启动参数上加上 -Dfile.encoding=UTF-8

William0423 · 2020 年12 月 10 日 03:28

好的，谢谢～

不懂就问 · 2020 年12 月 10 日 14:04

现在正常了吗？

William0423 · 2020 年12 月 10 日 14:20

我加了这两个配置之后就正常了，感谢～

不懂就问 · 2020 年12 月 11 日 04:01

好的。