sqoop导出数据过程中tikv优化问题

【 TiDB 使用环境】生产环境
【 TiDB 版本】 5.7.25-TiDB-v4.0.9
【复现路径】sqoop数据到tidb
【遇到的问题:问题现象及影响】
在启动sqoop任务之后,系统整体cpu使用率在50%,但是通过tikv的thread cpu监控来看,raft store cpu和 grpc poll cpu 都会降低,这是什么原因引起的?或者需要调整什么配置?
我的理解是在系统资源充足的情况下,raft store cpu和grpc poll cpu应该不受任何影响。


【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

【附件:截图/日志/监控】

CPU使用率降低了难道不好吗?

我有点不太理解,raftstore.store-pool-size目前设置为8,在什么都不做的情况下,raft store cpu在500%到600之间,Async apply cpu接近为0。
启动sqoop任务,Async apply cpu会上升,为什么raft store cpu会下降,这让我感觉tikv好像设置了整体资源使用的上限,没有充分发挥服务器性能。

409 版本?推荐升级 :face_with_peeking_eye:

已升级,图表看上去都吻合了。

问题背景和描述其实都不是非常直观,我尝试回答下你的问题:

  1. dashboard 上面来看,你了混合部署,我不确定你是否有做内存和 CPU 的限制。如果没有请做好限制。
  2. 虽然是混合部署,但可以明显看到你的 CPU 是不均衡的,3 个 48c + 两个 32c + 2 个 64c. 这样是有问题的,因为木桶效应带来的影响,如果你做了资源限制,那么你每个物理机会受到 32c 的短板效应。
  3. 我假设你是 10 点左右启动的 sqoop,图上看到其实 10 点前 CPU 也是有的, 可以看到分了两层
    ,那么说明你之前应该也有业务压力。可能是业务 A 的表现。
  4. 10 点前,你有 raft store cpu 和 grpc CPU。没有 schedule CPU,那么应该无写入。不确定你的业务模型。
  5. 比较奇怪的是,10 点后,你的 sqoop 任务应该启动了,这个时候可以看到 schedule cpu 上升,但是初始的时候不是很均衡,而且10.30,13.00 有不均衡的情况。这个代表有写入热点。关于写入热点你可以晚上看看材料进行优化。
    你现在的问题我理解是为什么我整体 CPU 使用率下降了,但是 raft cpu 和 grpc CPU 缺下降了。
    我觉得可能是因为 Sqoop 业务启动后,占用了一些资源,比如硬盘 IO 或者你的应用服务器或者你的网络资源。导致你以前的业务受到了影响,导致原先业务 A 给到的压力反而下降,导致你 grpc cpu 和 raft 的 cpu 有下降 :thinking:
1 个赞

有些问题处理,重启,升级是最快的 :grin: :grin: