tidb集群tikv缩容出现pending offline故障

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
tidb使用版本是v5.2.1,包含2台cdc,2台pd,5台tikv(原来只有3台,3台配置比较老,于是加了两台进去,还有一台没有加入进去,其中3台需要缩容),2台tidb,3台tiflash。

【概述】场景+问题概述
正式环境中缩容的时候出现了pending offline问题


【背景】做过哪些操作
tiup cluster scale in 集群名 --node ip:port
进入pd-ctl里面修改过config set leader-schedule-limit 和config set region-schedule-limit

【现象】业务和数据库现象
tidb数据库是可以使用的,但是新加如的tikv CPU使用率很高
【业务影响】

【TiDB 版本】
v5.2.1
【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

操作时如何操作的,三台一起缩容 还是一台台缩容的

默认3副本,5个tikv,一下缩3个,剩下一个副本没地调度啊,在加一个tikv

1 个赞

目前和那边在沟通,请问一下,如果出现了tikv pending offline,然后添加一个节点tikv是没有问题的对吧~

之前有3台tikv,目前缩减容的时候,加入了两台,然后要释放3台~

下线过程,up > offline: 迁移leader/region到其他tikv,必须保证tikv数量>=副本数才能有地迁移。 offline > tombone:所有region迁移完成,然后使用tiup cluster prune清理文件。 另下线过程 避免使用 --force

目前是缩容一台,结果它pending offline,然后我就像缩容其他两台。结果就这样子了

好的,先谢谢,我在等另外一台服务器来,然后添加一下

你这个操作可能导致leader未迁移完,现在有些region没有迁移走,一直pending

嗯嗯,是的,目前一直都是这样子的,目前还有2台tikv,3台在下线中,根据@h5n1的说法需要增加一台才可以

您好,现在已经新加入了一台机器,目前什么都没有变化

tiup cluster display , overview 监控页面的 tikv leader/region监控看下是否在做均衡调度

目前tidb运行成为这样子,region_score和region_size还有部分没有转移,稍等一下。我集群的状态

谢谢,已经好了。非常感谢