版本
tispark 3.3_2.12-3.1.5
tidb7.1
spark3.3.1
tidb部署拓扑
问题描述
最近在使用tispark进行数据写入,发现速度很慢。社区有评估过正常的速度大概多少吗,有参考值吗。
已经抽了1个多小时了,还没有抽完。数据来源是一张tpcds100的sale_stores表,数据量287997024条。
是需要开启什么配置吗,这速度确实和预期差距很大。
spark提交命令
bin/spark-shell --master yarn --executor-cores 2 --executor-memory 6g --num-executors 10
scala代码
df.write.
format("tidb").
option("database", "test").
option("table", "store_sales").
options(tidbOptions).
mode("append").
save()
最后报错了,但是数据是成功写入了。写入速度大概是5w/s。
24/02/02 15:16:28 WARN KVErrorHandler: Stale Epoch encountered for region [{Region[4502900364] ConfVer[34877] Version[65155] Store[402369509] KeyRange[t\200\000\000\000\000\0019E]:[t\200\000\377\377\377\377\377\374_r\200\000\000\000\000\000\351\305]}]
24/02/02 15:16:28 WARN KVErrorHandler: Failed to send notification back to driver since CacheInvalidateCallBack is null in executor node.
13.shade.io.grpc.StatusRuntimeException: UNKNOWN: region 4502900364 is hot
14.shade.io.grpc.StatusRuntimeException: UNKNOWN: region 4502900364 is hot
15.shade.io.grpc.StatusRuntimeException: UNKNOWN: region 4502900364 is hot
24/02/02 15:16:27 WARN TiSession: failed to scatter region: 4502900364
com.pingcap.tikv.exception.GrpcException: retry is exhausted.