pd-ctl执行config show多了slow-store-evicting-affected-store-ratio-threshold这个参数,含义是什么?

RT,发现7.5新增了slow-store-evicting-affected-store-ratio-threshold这个参数,是用来调整slow-store驱逐leader的阈值的么?

1 个赞

不过还是有些疑问,这个参数应该怎么用?节点的slowness得分怎么会和节点个数store-count有关系?

我一开始就是从代码中搜到了这个关键字,贴出来了。真要回答这个问题还真有点不简单,我再看看代码。 :smiley:

https://github.com/tikv/pd/pull/5808
你看看这个吧,大概是为了解决偶发的磁盘慢引入的驱逐leader的机制。有点复杂,有空再看。

奇怪,应该是这个PR引进的,但是已经是23-02就被合并到主分支,怎么这个参数6.5还没有。。

我线上时不时就会有个这种告警,已经免疫了 :joy:

磁盘抖动放任何数据库都是个难题,TiKV 分布式架构还能主动 evict leader 来尽可能降低影响性。这个功能很早就有了,只是判断逻辑一直满足不了所有的场景。对使用者来说无脑希望 evict leader 越快越好,最好是感受不到磁盘的抖动。这显然是不可能的,只有换成不抖动的盘才能做到,任何干预动作都得评估带来的正向收益和风险影响,既要考虑分钟小时级的长时间抖动又要考虑日常秒级抖动,还要考虑抖动的程度和 evict leader 对集群性能本身带来的影响。

说回来,给 slow store 功能加个参数,估计也算是一种妥协,放开了让用户自个儿也可以个性化配置了。