tikv启动报错failed to start node: Grpc(RpcFailure(RpcStatus { status: 2-UNKNOWN, details: Some(\"duplicated store address:

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【概述】 场景 + 问题概述

【备份和数据迁移策略逻辑】

【背景】 做过哪些操作
升级K8s重启了docker和kubelet

【现象】 业务和数据库现象
有部分tikv pod启动失败,查看启动报错日志:[FATAL] [server.rs:590] [“failed to start node: Grpc(RpcFailure(RpcStatus { status: 2-UNKNOWN, details: Some(“duplicated store address: id:87942025 address:\“basic-tikv-2.basic-tikv-peer.tidb-cluster-2.svc:20160\” version:\“4.0.12\” status_address:\“basic-tikv-2.basic-tikv-peer.tidb-cluster-2.svc:20180\” git_hash:\“3ab4c28115db96509add3e040d586418c30f802f\” start_timestamp:1625481709 deploy_path:\”/\” , already registered by id:17001 address:\“basic-tikv-2.basic-tikv-peer.tidb-cluster-2.svc:20160\” state:Offline version:\“4.0.12\” status_address:\“basic-tikv-2.basic-tikv-peer.tidb-cluster-2.svc:20180\” git_hash:\“3ab4c28115db96509add3e040d586418c30f802f\” start_timestamp:1625123695 deploy_path:\"/\" last_heartbeat:1625320474617495868 “) }))”]

所有tidb pod都启动失败,报错信息基本一样:[FATAL] [session.go:2101] [“check bootstrapped failed”] [error="[tikv:9005]Region is unavailable"] [stack=“github.com/pingcap/tidb/session.getStoreBootstrapVersion\ \t/home/jenkins/agent/workspace/optimization-build-tidb-linux-amd/go/src/github.com/pingcap/tidb/session/session.go:2101\ github.com/pingcap/tidb/session.BootstrapSession\ \t/home/jenkins/agent/workspace/optimization-build-tidb-linux-amd/go/src/github.com/pingcap/tidb/session/session.go:1886\ main.createStoreAndDomain\ \t/home/jenkins/agent/workspace/optimization-build-tidb-linux-amd/go/src/github.com/pingcap/tidb/tidb-server/main.go:258\ main.main\ \t/home/jenkins/agent/workspace/optimization-build-tidb-linux-amd/go/src/github.com/pingcap/tidb/tidb-server/main.go:179\ runtime.main\ \t/usr/local/go/src/runtime/proc.go:203”]

【问题】 当前遇到的问题
我想通过/tikv-ctl --db /var/lib/tikv/db/ unsafe-recover remove-fail-stores --all-regions -r 10846001 -s 17001,15074001的方式来尝试修复,region id和store id是通过/pd-ctl region和/pd-ctl store查到的对应关系。store id和我目前启动失败的两个pod是能对应的上的,但是这种修复方式需要先停掉目前健康的tikv,我这是容器的,我直接修改command就自动被operator来还原了,我可以通过什么方式修改来临时让tikv不启动呢,或者我这种情况有其他办法解决么,谢谢。

【业务影响】

【TiDB 版本】
4.0.12

【附件】

  • 相关日志、配置文件、Grafana 监控(https://metricstool.pingcap.com/)
  • TiUP Cluster Display 信息
  • TiUP CLuster Edit config 信息
  • TiDB-Overview 监控
  • 对应模块的 Grafana 监控(如有 BR、TiDB-binlog、TiCDC 等)
  • 对应模块日志(包含问题前后 1 小时日志)

若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

没有看明白需求内容。是想只启动指定的tikv,未指定的不启动么?还是需要stop 指定的tikv?

根据标题能搜索到类似的问题发帖,可以参考一下是否有用

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。