扩缩容进度查询

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【 TiDB 使用环境】
TIDB通过TIDB Operator部署在一个5节点的全NVME SSD集群上,单节点保证至少有单盘1.5TB容量的NVME存储设备且数量不少于3个,因此可能出现单节点多实例的场景,CPU和内存超配

【概述】场景+问题概述
通过TIDB Operator进行集群组件的扩缩容,比如TIKV的缩容,无法看到TIKV内部的迁移进度

【背景】做过哪些操作
修改TC中对应组件的Replicas后保存退出

【现象】业务和数据库现象
查看tidb-admin的namespace中tidb-admission-webhook的Pod的日志,出现大量重复

I0728 10:11:14.684566       1 pods.go:106] receive DELETE pod[tidb-production-01/tidb-production-01-tikv-3] by sa[system:serviceaccount:tidb-admin:advanced-statefulset-controller]
I0728 10:11:14.684610       1 pods.go:132] receive admission to delete pod[tidb-production-01/tidb-production-01-tikv-3]
I0728 10:11:15.008538       1 admission_hooks.go:104] receive mutation request for TidbCluster[tidb-production-01/tidb-production-01]

捕获TIDB集群所在的namespace中的event,出现error信息:

50m       Warning   FailedDelete       statefulset/tidb-production-01-tikv   delete Pod tidb-production-01-tikv-3
 in StatefulSet tidb-production-01-tikv failed error: admission webhook "podadmission.tidb.pingcap.com" denied the
request without explanation

【业务影响】
1.无法知悉TIKV实例内部的扩缩容进度,只能看到Statefulset TIKV相关Pod的扩缩容状态,但是如果TIKV实例相关Pod进入Terminating状态所需要的时间很长,则无法得知扩缩容任务的时长,只能一直等待。
【TiDB 版本】
v5.0.1
【附件】

  1. TiUP Cluster Display 信息

  2. TiUP Cluster Edit Config 信息

  3. TiDB- Overview 监控

  • 对应模块日志(包含问题前后1小时日志)

问题补充:
目前是否有哪个指标可以标识出TIKV实例从Running转入Terminating状态以及销毁整个流程的进度,业务进度从Statefulset上无法体现

TIDB扩缩容文档官方文档中对于TIKV迁移耗时的描述是:“对于 TiKV 组件,由于涉及到数据搬迁,可能会需要 3 到 5 分钟来进行扩容或者缩容”。

但该环境中一个TIKV实例的缩容都需要50m,与描述偏差很大,如果涉及到数据迁移,这个迁移进度可以查看吗?

tikv-3的缩容消耗了2个小时,最终进入了terminating,其实当Pod组的状态转为terminating后,缩容工作已经接近尾声,但是前期数据迁移和平衡的时间非常久,且目前没有找到一个方法预估这个时间

把监控部署起来,可以通过下线目标节点region数量来判断。等region转移完下线工作基本就完成了。
看一下这个问题,别人通过监控看到region情况了

OK,从监控系统上能看到对应的监控指标项了,多谢支援

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。