spark写入tidb慢

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
tidb5.2

【概述】 场景 + 问题概述
spark解析日志文件,将日志明细写入tidb,一天大约5亿左右的数据,想要5-10小时内写完,目前一小时写入不到一千万
【背景】 做过哪些操作
spark通过jdbc方式写入
【现象】 业务和数据库现象

【问题】 当前遇到的问题

【业务影响】

【TiDB 版本】

【应用软件及版本】

【附件】 相关日志及配置信息

  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息

监控(https://metricstool.pingcap.com/)

  • TiDB-Overview Grafana监控
  • TiDB Grafana 监控
  • TiKV Grafana 监控
  • PD Grafana 监控
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

tikv部署硬件情况是怎样的?开的悲观事务还是乐观事务?有没有针对spark优化过?
我这边默认参数的情况下,2000万数据,平均7分钟,tikv节点16G,ssd raid 1

我这边搭建的都是默认参数 3台tikv没有用ssd用的机械硬盘

spark这块都不怎么耗时我直接写入hdfs就挺快的 就是写入tidb慢

写hdfs和写tidb没有可比性吧,hdfs本身就是一个高吞吐的系统,也没有什么锁和事务的限制,tidb写的时候,是遵循两阶段提交的过程的。同样硬件条件下,hdfs比tidb快是正常的。

我看了我搭建的tidb默认配置是悲观锁 ,和没有使用ssd的关系大吗

关系挺大的,ssd的效率确实高不少,我目前觉得乐观事务,会减少一次spark提交,加上部分事务写盘的参数调整应该会快一些

1 Like

好的谢谢

您好 方便问下 您这个是几台tikv节点 节点的cpu和内存是多少

16个节点,每节点8C32G,SSD raid1

1 Like

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。