8.1.0 资源管控相关问题

Hi 系统版本 openEuler 22.03 ,在做资源管控评估时报错,目前是一边用 sysbench 压测,一边做资源管控评估,麻烦帮忙看看,还有我看文档说这两个值不存在也会导致该问题,请教下怎么开?
resource_manager_resource_unit
process_cpu_usage

ERROR 1105 (HY000): The workload in selected time window is too low, with which TiDB is unable to reach a capacity estimation; please select another time window with higher workload, or calibrate resource by hardware instead

试试加个东八区 :thinking:
CALIBRATE RESOURCE START_TIME ‘2024-05-28 15:09:00 +08:00’ END_TIME ‘2024-05-28 15:16:00 +08:00’;

要么就是预估有问题了。。。

看报错是认为集群压力很低 导致无法预估。

不行

sysbench 啥用户压的 也是 root 不?

是root

背景:sysbench 压测过程中,评测 TiDB 8.1.0 的 RU,压测过程根据不同并发进行负载,每个阶段压测 1800s,中间休息 120s

第一阶段(大致):14:30 ~ 15:00
第二阶段(大致):15:00 ~ 15:30
第三阶段(大致):15:30 ~ 16:00

问题描述:第一阶段无法评估 RU 报错如下

ERROR 1105 (HY000): The workload in selected time window is too low, with which TiDB is unable to reach a capacity estimation; please select another time window with higher workload, or calibrate resource by hardware instead

和社区支持老师沟通后,感觉 low 的标准不太清晰,麻烦研发老师帮忙看看

假设你每个 TiKV 占用8vc的资源,一共4个 TiKV,目前总的 TiKV 4个实例累加起来 CPU 利用率是800%也就是用了12vc,此时整体 TiKV 利用率是。
800%/(8*4)=0.25 > 0.2 此时是可以评估出来的
TiDB 同理,在时间范围内tidb或者tikv任意资源利用率大于0.2才可以评估成功
阶段一可能累加起来没有超过20%

另外单机多实例部署 TiKV 或者多实例部署的时候需要使用numa或者cgroup来现在tikv占用cpu的资源总量,否则就会出现单个tikv cpu资源总量是单机全部cpu的情况。
例如32vc的服务器部署了4个tikv,3台服务器一共12个tikv实例不设置numa或cgroup时且cpu加总利用率32%是计算方式如下:
3200%/(32 * 4 * 3)=0.08<0.2,此时资源利用率虽然高,但是还是没有超过0.2,需要使用
cgroup:
tikv:
resource_control:
memory_limit: 32G
cpu_quota: 800%
numa:
tikv:
numa_node: “0”
设置之后可以从监控里面看到单个cpu总量