我使用tispark加载tidb的表，随机会出现乱码

fengchao723 · 2021 年11 月 4 日 05:29

【 TiDB 使用环境】

tidb 5.2 + tispark2.4.1 + spark2.4 + CDH5.16
【概述】场景 + 问题概述

在使用tispark开发时，在spark环境使用tidb表，不定期出现乱码。表和数据的格式都是UTF-8 。

【背景】做过哪些操作

读取tidb表。spark配置
val sparkConf = new SparkConf().
//setIfMissing(“spark.master”, “local[*]”).
setIfMissing(“spark.app.name”, getClass.getName).
setIfMissing(“spark.driver.allowMultipleContexts”, “true”).
setIfMissing(“spark.sql.extensions”, “org.apache.spark.sql.TiExtensions”).
setIfMissing(“spark.tispark.pd.addresses”, “XX.X.XXX.XX:2379,XX.X.XX.XXX:2379,XX.X.XX.XXX:2379”).
setIfMissing(“spark.driver.maxResultSize”, “12g”).
setIfMissing(“spark.debug.maxToStringFields”, “150”).
setIfMissing(“spark.tispark.tidb.addr”, “10.6.201.99”).
setIfMissing(“spark.tispark.tidb.port”, “4000”).
//如果要同时操作hive和tidb,加上enableHiveSupport方法。
// 如果有重名库要操作Tidb表要加上前缀已区分是hive还是tidb的表
setIfMissing(“spark.tispark.write.allow_spark_sql”, “true”).
setIfMissing(“spark.tispark.db_prefix”, “tidb_”).
setIfMissing(“spark.sql.crossJoin.enabled”, “true”)

【现象】业务和数据库现象
val sql_6: String =
s"""
|select a.org_code,
| b.sub_department_name,
| b.region_code,
| b.region_name
|from (select
| actual_unpack_org_code as org_code
| from tidb_ytrpt.mdm_first_code_maintain
| where dt = ‘${BDate1}’
| and actual_unpack_place_org_type in (‘1’,‘3’)
| and is_del = ‘0’
| group by actual_unpack_org_code) a
| left join tidb_ytrpt.dw_dim_yto_org_trans b
| on a.org_code = b.sub_department_code
“”".stripMargin

val sql_6_df = spark.sql(sql_6)
sql_6_df.createOrReplaceTempView("temp_unload_package_center")
sql_6_df.show(10) //会随机出现乱码

【问题】当前遇到的问题

随机出现乱码。一天内执行144次。总会出现1,2次乱码。
【业务影响】

【 TiDB 版本】
5.2
【附件】相关日志及监控（https://metricstool.pingcap.com/)

若提问为性能优化、故障排查类问题，请下载脚本运行。终端输出的打印结果，请务必全选并复制粘贴上传。

birdstorm · 2021 年11 月 5 日 16:01

可以检查下终端的 locale 是否正确

fengchao723 · 2021 年11 月 6 日 06:27

全部都是UTF-8。

spc_monkey · 2021 年11 月 10 日 03:20

乱码的数据是固定的吗？或者在数据库中查询这个数据是乱码吗？

birdstorm · 2021 年11 月 10 日 13:44

能提供一下出错的数据么？每次都是相同的数据出错么？

fengchao723 · 2021 年11 月 12 日 06:57

是相同的列出现乱码。在数据库中都是正常的。平时也都是正常的。这个乱码随机时段出现，而且出现几率挺低的。一天出现几次而已。我们是10分钟查一次。
我开始用tispark读tidb的维度表进行关联。但是不定时出现中文字段乱码。后面我用hive中的维度表进行关联，问题就消失了。

spc_monkey · 2021 年11 月 15 日 02:20

最好能提供一下乱码的数据，不然只能猜测，整个链路有点长，没发排查

birdstorm · 2021 年11 月 17 日 05:28

试下加两个 spark 配置

spark.driver.extraJavaOptions -Dfile.encoding=UTF-8
spark.executor.extraJavaOptions -Dfile.encoding=UTF-8

可以配在 spark-defaults.conf 里

我怀疑有部分 spark 机器上的 jvm encoding 配置不太对

spc_monkey · 2021 年11 月 25 日 08:56

问一下，咱们是排查定位的，学习一下

system · 2022 年10 月 31 日 19:17

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。