sqoop导出数据过程中tikv优化问题

TiDBer_CCXxfBxR · 2024 年2 月 23 日 05:39

【 TiDB 使用环境】生产环境
【 TiDB 版本】 5.7.25-TiDB-v4.0.9
【复现路径】sqoop数据到tidb
【遇到的问题：问题现象及影响】
在启动sqoop任务之后，系统整体cpu使用率在50%，但是通过tikv的thread cpu监控来看，raft store cpu和 grpc poll cpu 都会降低，这是什么原因引起的？或者需要调整什么配置？
我的理解是在系统资源充足的情况下，raft store cpu和grpc poll cpu应该不受任何影响。

【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面

【附件：截图/日志/监控】

dba远航 · 2024 年2 月 23 日 05:45

CPU使用率降低了难道不好吗？

TiDBer_CCXxfBxR · 2024 年2 月 23 日 05:55

我有点不太理解，raftstore.store-pool-size目前设置为8，在什么都不做的情况下，raft store cpu在500%到600之间，Async apply cpu接近为0。
启动sqoop任务，Async apply cpu会上升，为什么raft store cpu会下降，这让我感觉tikv好像设置了整体资源使用的上限，没有充分发挥服务器性能。

WalterWj · 2024 年2 月 29 日 03:30

409 版本？推荐升级

TiDBer_CCXxfBxR · 2024 年3 月 22 日 05:42

已升级，图表看上去都吻合了。

WalterWj · 2024 年3 月 22 日 06:38

问题背景和描述其实都不是非常直观，我尝试回答下你的问题：

dashboard 上面来看，你了混合部署，我不确定你是否有做内存和 CPU 的限制。如果没有请做好限制。
虽然是混合部署，但可以明显看到你的 CPU 是不均衡的，3 个 48c + 两个 32c + 2 个 64c. 这样是有问题的，因为木桶效应带来的影响，如果你做了资源限制，那么你每个物理机会受到 32c 的短板效应。
我假设你是 10 点左右启动的 sqoop，图上看到其实 10 点前 CPU 也是有的，可以看到分了两层

image1652×527 68.8 KB
，那么说明你之前应该也有业务压力。可能是业务 A 的表现。
10 点前，你有 raft store cpu 和 grpc CPU。没有 schedule CPU，那么应该无写入。不确定你的业务模型。
比较奇怪的是，10 点后，你的 sqoop 任务应该启动了，这个时候可以看到 schedule cpu 上升，但是初始的时候不是很均衡，而且10.30,13.00 有不均衡的情况。这个代表有写入热点。关于写入热点你可以晚上看看材料进行优化。
你现在的问题我理解是为什么我整体 CPU 使用率下降了，但是 raft cpu 和 grpc CPU 缺下降了。
我觉得可能是因为 Sqoop 业务启动后，占用了一些资源，比如硬盘 IO 或者你的应用服务器或者你的网络资源。导致你以前的业务受到了影响，导致原先业务 A 给到的压力反而下降，导致你 grpc cpu 和 raft 的 cpu 有下降。

forever · 2024 年3 月 22 日 06:40

有些问题处理，重启，升级是最快的