tikv 报错 local_peer_id >= to_peer_id 应该如何处理该region

为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:

【TiDB 版本】
v4.0.6
【问题描述】

集群相关信息:
3个物理机, 每台物理机两块ssd , 6个节点tikv , 有label

发现有个tikv节点一直报如下错误:

reload tikv 观察是否继续报错 ,
有leader没有迁移完, 5min强制重启, 观察几次发现是固定的两个节点, 监控显示只有1个leader无法迁移完成

查看region health 发现pending count >=1
查看 TIKV_REGION_PEERS 及 TIKV_STORE_STATUS 相关信息:

现象总结:
10.10.1.11:20161 一直报错: local_peer_id >= to_peer_id
10.10.1.12:20161 reload 时transfer leader总剩下1个
10.10.1.13:20160 reload 时transfer leader总剩下1个

【疑惑】(麻烦指导)

这个报错的含义以及如何修复这个报错? 暂时没有找到相关的文档, 如有请告知查找的方法
是否可以直接将10.10.1.11:20161节点的peer删除, 这样会导致数据不完整吗?


若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。

pd-ctl 执行 region 5809816 的结果是怎么样的?

1 个赞
{
  "id": 5809816,
  "start_key": "7480000000000FB6FF1D5F728000000055FFD84A2F0000000000FA",
  "end_key": "7480000000000FB6FF1F5F698000000000FF0000010130303136FF61323063FF323464FF6331316562FF3834FF383265656565FF65FF65656565656565FFFF0000000000000000FFF700000000000000F8",
  "epoch": {
    "conf_ver": 5500,
    "version": 241910
  },
  "peers": [
    {
      "id": 16162158,
      "store_id": 2507223
    },
    {
      "id": 16162164,
      "store_id": 741053
    },
    {
      "id": 16162275,
      "store_id": 2507225,
      "is_learner": true
    }
  ],
  "leader": {
    "id": 16162164,
    "store_id": 741053
  },
  "down_peers": [
    {
      "peer": {
        "id": 16162275,
        "store_id": 2507225,
        "is_learner": true
      },
      "down_seconds": 7320
    }
  ],
  "pending_peers": [
    {
      "id": 16162275,
      "store_id": 2507225,
      "is_learner": true
    }
  ],
  "written_bytes": 0,
  "read_bytes": 0,
  "written_keys": 0,
  "read_keys": 0,
  "approximate_size": 144,
  "approximate_keys": 365763
}
>> operator add remove-peer 1 2                         // 移除 store 2 上的 Region 1 的一个副本

可以通过 pd-ctl 执行 operator add remove-peer 5809816 2507225 操作将这个既是 pending 又是 down 的 peer 移除掉,然后看下情况。

通过删除已经解决这个问题了, 忘记说了, 集群是2备份的

:+1::+1:

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。