tikv 节点异常下线,强制删除节点导致无法自动补充peers

手动补的话需要怎么操作

operator add add-peer 1 2 // 在 store 2 上新增 Region 1 的一个副本

看是你批量搞的话,涉及一些调度问题,不能全都加到一台机器上吧。

是的,我等他down-peer删完。再看看怎么把peer少于3的region拿出来,然后写脚本吧

region --jq=“.regions | {id: .id, peer_stores: [.peers.store_id] | select(length != 3)}”

过滤副本数不是3的region
不过你这个关键应该先看看pd在干啥吧,先把pd修好吧,否则光靠手动你这很容易出问题啊。

正常是会补的,看看pd leader的日志,找个不能补副本的region_id 看看有啥信息

谢谢提醒,刚查看了 pd leader 节点的信息,果然发现有奇怪的报错

[2024/09/24 15:22:55.458 +08:00] [ERROR] [cluster.go:590] [“failed to save region to storage”] [region-id=243334548] [region-meta=“id:243334548 start_key:"7480000000000015FF265F698000000000FF0000020419B00F2EFFAE00000003800000FF0056BA1EB1000000FC" end_key:"7480000000000015FF265F698000000000FF0000020419B010DBFF0D00000003800000FF0056C171B1000000FC" region_epoch:<conf_ver:1024515 version:4676 > peers:<id:285273310 store_id:5278948 > peers:<id:288856541 store_id:7 >”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]

[2024/09/24 15:22:55.501 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]

这个更诡异了,说空间不足。但是我看了明明剩余空间还有很多。。。

pd 有3个节点,目前发现leader节点日志有报错,不确定重启pd节点能不能解决问题

[2024/09/24 15:22:55.501 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]

别重启,你这个是pd的leader没磁盘空间了。你把日志清理下。万一有些没有持久化的内容你重启就坏了。

要么就pd切一下leader
member leader resign

已经清理过了,磁盘目前剩余 85G的空间。日志还是报错

[2024/09/24 15:38:02.806 +08:00] [WARN] [history_buffer.go:154] [“persist history index failed”] [persist-index=3990936456] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:03.506 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:04.508 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:05.511 +08:00] [WARN] [history_buffer.go:154] [“persist history index failed”] [persist-index=3990936556] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:05.518 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:06.519 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]

切换pd的leader到其他pd上,然后重启这个pd

df du 啥结果 ,inode用的多吗

image

image

image

趁早把leader迁移到其他pd上,然后重启或者直接重建这个pd得了。你这个集群这种状态多悬啊。

pd leader已经切换了,然后目前down-peer 也已经移除。目前看起来集群还是正常可以访问,待会主要查一下之前down的peer有没有开始补

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。