某个tikv节点全程划水(几乎不处理请求)

panqiao · 2024 年6 月 24 日 07:49

我这个是生产环境

panqiao · 2024 年6 月 24 日 07:50

你说的这个label规则要怎么排查下，我现在比较紧急，这个kv不工作的话，CPU真的不够用

panqiao · 2024 年6 月 24 日 07:52

我看了controllermanager的日志有一条
E0624 15:51:04.281170 1 tidb_cluster_controller.go:142] TidbCluster: tidb/prod, sync failed modify volumes for tidb/prod:tikv failed: PersistentVolumeClaim “tikv-prod-tikv-2” is invalid: spec.resources.requests.storage: Forbidden: field can not be less than previous value, requeuing

舞动梦灵 · 2024 年6 月 24 日 08:00

当前leader只有600 这么少，不是很急吧。我的都是几万的leader。也没啥问题呀。不过我的也有一台leader是0.一共26台tikv 其中有一台leader是0 。没啥影响也就没处理

panqiao · 2024 年6 月 24 日 08:00

好像是我之前重装了一次tidb，然后用的是原来的持久卷

panqiao · 2024 年6 月 24 日 08:01

我这个很明显是有问题的

舞动梦灵 · 2024 年6 月 24 日 08:02

你这个看起来数据量不大，如果时间充足，你可以直接把这台服务器缩容掉，然后在扩容上去。看看

panqiao · 2024 年6 月 24 日 08:08

我在k8s上部署的，你的意思是重启这个tikv？最主要我很迷惑，为啥会有调整我的持久卷大小的操作？
我安装时需求的是100G，持久卷正好也是100G，三个tikv节点一模一样，怎么就它偏偏有问题呀？

舞动梦灵 · 2024 年6 月 24 日 08:45

要么是bug，要么是某个参数设置引起的，
你试试手动吧leader 迁移到这个指定的tikv3上面：

手动搞走leader试试手动吧tikv2上的 leader 迁移到tikv3上。你看看他会不会迁移。
手动添加 Operator
PD 支持直接通过 pd-ctl 来创建或删除 Operator，如：

operator add add-peer 2 5：在 Store 5 上为 Region 2 添加 Peer
operator add transfer-leader 2 5：将 Region 2 的 Leader 迁移至 Store 5
operator add split-region 2：将 Region 2 拆分为 2 个大小相当的 Region
operator remove 2：取消 Region 2 当前待执行的 Operator
2.可能需要全部分析一下了
https://docs.pingcap.com/zh/tidb/stable/pd-scheduling-best-practices#缩容及故障恢复

image1133×678 55 KB

可能你的磁盘有问题。
E0624 15:51:04.281170 1 tidb_cluster_controller.go:142] TidbCluster: tidb/prod, sync failed modify volumes for tidb/prod:tikv failed: PersistentVolumeClaim “tikv-prod-tikv-2” is invalid: spec.resources.requests.storage: Forbidden: field can not be less than previous value, requeuing
这个报错已经提示了 tikv-prod-tikv-这个的PV是 invalied的。
-1. 在pd里面 store一下看看他这个对应的磁盘状态信息
-2. 检查这个pv磁盘相关信息问题，
-3. 有可能是资源不足问题导致的，你这个配置太低了。生产使用怎么全部都是4核呢？
你在搞一台服务器，扩容一下，看看tikv 的ledaer有没有过去，如果没问题，那么极有可能就是这个服务器上的pv磁盘有问题，然后吧有问题的这个缩容掉，不要
或者你在tikv-prod-2 这个上面在搞一个硬盘扩容当前这个服务器，选择路径为新硬盘分区地址。看看他会不会写入。
这个操作不影响业务，非高峰期间直接操作没问题。

panqiao · 2024 年6 月 24 日 09:13

好的，多谢，我试试

system · 2024 年8 月 23 日 09:13

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。