手动补的话需要怎么操作
operator add add-peer 1 2 // 在 store 2 上新增 Region 1 的一个副本
看是你批量搞的话,涉及一些调度问题,不能全都加到一台机器上吧。
是的,我等他down-peer删完。再看看怎么把peer少于3的region拿出来,然后写脚本吧
region --jq=“.regions | {id: .id, peer_stores: [.peers.store_id] | select(length != 3)}”
过滤副本数不是3的region
不过你这个关键应该先看看pd在干啥吧,先把pd修好吧,否则光靠手动你这很容易出问题啊。
正常是会补的,看看pd leader的日志,找个不能补副本的region_id 看看有啥信息
谢谢提醒,刚查看了 pd leader 节点的信息,果然发现有奇怪的报错
[2024/09/24 15:22:55.458 +08:00] [ERROR] [cluster.go:590] [“failed to save region to storage”] [region-id=243334548] [region-meta=“id:243334548 start_key:"7480000000000015FF265F698000000000FF0000020419B00F2EFFAE00000003800000FF0056BA1EB1000000FC" end_key:"7480000000000015FF265F698000000000FF0000020419B010DBFF0D00000003800000FF0056C171B1000000FC" region_epoch:<conf_ver:1024515 version:4676 > peers:<id:285273310 store_id:5278948 > peers:<id:288856541 store_id:7 >”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:22:55.501 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
这个更诡异了,说空间不足。但是我看了明明剩余空间还有很多。。。
pd 有3个节点,目前发现leader节点日志有报错,不确定重启pd节点能不能解决问题
[2024/09/24 15:22:55.501 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
别重启,你这个是pd的leader没磁盘空间了。你把日志清理下。万一有些没有持久化的内容你重启就坏了。
要么就pd切一下leader
member leader resign
已经清理过了,磁盘目前剩余 85G的空间。日志还是报错
[2024/09/24 15:38:02.806 +08:00] [WARN] [history_buffer.go:154] [“persist history index failed”] [persist-index=3990936456] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:03.506 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:04.508 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:05.511 +08:00] [WARN] [history_buffer.go:154] [“persist history index failed”] [persist-index=3990936556] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:05.518 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
[2024/09/24 15:38:06.519 +08:00] [ERROR] [region_storage.go:89] [“flush regions meet error”] [error=“write data/pd-2379/region-meta/345507.log: no space left on device”]
切换pd的leader到其他pd上,然后重启这个pd
df du 啥结果 ,inode用的多吗
趁早把leader迁移到其他pd上,然后重启或者直接重建这个pd得了。你这个集群这种状态多悬啊。
pd leader已经切换了,然后目前down-peer 也已经移除。目前看起来集群还是正常可以访问,待会主要查一下之前down的peer有没有开始补
此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。