thalex13
(Thalex13)
1
为提高效率,请提供以下信息,问题描述清晰能够更快得到解决:
【TiDB 版本】
v4.0.6
【问题描述】
集群相关信息:
3个物理机, 每台物理机两块ssd , 6个节点tikv , 有label
发现有个tikv节点一直报如下错误:
reload tikv 观察是否继续报错 ,
有leader没有迁移完, 5min强制重启, 观察几次发现是固定的两个节点, 监控显示只有1个leader无法迁移完成
查看region health 发现pending count >=1
查看 TIKV_REGION_PEERS 及 TIKV_STORE_STATUS 相关信息:
现象总结:
10.10.1.11:20161 一直报错: local_peer_id >= to_peer_id
10.10.1.12:20161 reload 时transfer leader总剩下1个
10.10.1.13:20160 reload 时transfer leader总剩下1个
【疑惑】(麻烦指导)
这个报错的含义以及如何修复这个报错? 暂时没有找到相关的文档, 如有请告知查找的方法
是否可以直接将10.10.1.11:20161节点的peer删除, 这样会导致数据不完整吗?
若提问为性能优化、故障排查类问题,请下载脚本运行。终端输出的打印结果,请务必全选并复制粘贴上传。
pd-ctl 执行 region 5809816 的结果是怎么样的?
1 个赞
thalex13
(Thalex13)
3
{
"id": 5809816,
"start_key": "7480000000000FB6FF1D5F728000000055FFD84A2F0000000000FA",
"end_key": "7480000000000FB6FF1F5F698000000000FF0000010130303136FF61323063FF323464FF6331316562FF3834FF383265656565FF65FF65656565656565FFFF0000000000000000FFF700000000000000F8",
"epoch": {
"conf_ver": 5500,
"version": 241910
},
"peers": [
{
"id": 16162158,
"store_id": 2507223
},
{
"id": 16162164,
"store_id": 741053
},
{
"id": 16162275,
"store_id": 2507225,
"is_learner": true
}
],
"leader": {
"id": 16162164,
"store_id": 741053
},
"down_peers": [
{
"peer": {
"id": 16162275,
"store_id": 2507225,
"is_learner": true
},
"down_seconds": 7320
}
],
"pending_peers": [
{
"id": 16162275,
"store_id": 2507225,
"is_learner": true
}
],
"written_bytes": 0,
"read_bytes": 0,
"written_keys": 0,
"read_keys": 0,
"approximate_size": 144,
"approximate_keys": 365763
}
>> operator add remove-peer 1 2 // 移除 store 2 上的 Region 1 的一个副本
可以通过 pd-ctl 执行 operator add remove-peer 5809816 2507225 操作将这个既是 pending 又是 down 的 peer 移除掉,然后看下情况。
thalex13
(Thalex13)
5
通过删除已经解决这个问题了, 忘记说了, 集群是2备份的
system
(system)
关闭
7
此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。