tidb集群从v5.4.0升级到v6.5.0,主库集群check检查正常,从库集群检查报错:Regions are not fully healthy: 17061 miss-peer

【 TiDB 使用环境】预生产环境
【 TiDB 版本】v.5.4.0升级到v6.5.0
【复现路径】目前,主从库集群,均已经升级为v6.5.0版本,在主库集群执行check命令返回结果正常。
但是,在从库集群检查报错:Regions are not fully healthy: 17061 miss-peer
【遇到的问题:问题现象及影响】

主库集群,执行如下操作命令:
# tiup cluster check pre-tidb-cluster-01 --cluster
Checking region status of the cluster pre-tidb-cluster-01...
All regions are healthy.

从库集群,执行如下操作命令:
# tiup cluster check test-tidb-cluster-01 --cluster
Checking region status of the cluster test-tidb-cluster-01...
Regions are not fully healthy: 17061 miss-peer
Please fix unhealthy regions before other operations.

主库的grafana监控pd的Region health:

从库的grafana监控pd的Region health:

【资源配置】
【附件:截图/日志/监控】

遇到这种问题,如何解决,需要修复不健康的那些Region吗?

两步,找到region和移除region

还有一个操作情景没有提及:
1.主库集群升级操作时间为上周五
2.从库集群升级操作时间为本周一
3.主从库集群升级相关3天左右

不知道,跟这个有没有关系,导致出现region miss

除region不会丢失数据吗?

https://docs.pingcap.com/zh/tidb/stable/pd-control

这里有找到和移除问题region的操作手册

主从什么意思?tidb你还做了主从?

来自 @xfworld 大佬的解决方案

那就先别升级

  1. 监查现有的集群中,是否有 副本丢失的 region
  2. 这些 副本丢失的 region,如果不重要,可以考虑 手动进行清除
  3. 等集群状态正常之后,再来升级到 6.5.0

操作参考:
https://docs.pingcap.com/zh/tidb/stable/pd-control#region-check-miss-peer–extra-peer–down-peer–pending-peer–offline-peer–empty-region–hist-size–hist-keys

移除方法参考:

https://docs.pingcap.com/zh/tidb/stable/pd-control#恢复数据时寻找相关-region

1 个赞

可能会丢失少量的数据

建议观察,miss peer会自动补齐 多副本丢失需要会需要手动处理
PS:是升级导致了miss peer吗?还是升级前就有miss peer

怎么升级的?

从库承担业务不 ?? 数据量多大??

主从架构:主没问题的话, 从库数据丢失。 可以考虑 从库重新搭建一次啊 。如果从库不承担业务的话。

您将您的升级流程详细发一下吧。 看看是不是流程的问题

我认为重点要查明为什么从库丢失了,主库和从库有什么差异

是的 可以深入查查。说不定搞个bug。提升下能力!

严重赞成大佬的意见,每天都在进步

他这个要是自动恢复,那么久早该恢复完了吧

是的,2套Tidb集群之间通过ticdc做了主从数据同步,读写分离。OLTP类的操作在主库集群完成,OLAP报表类的查询放到从库集群中完成。

为什么 不考虑下 tiflash。 在架构中。你们公司 有什么特别需求吗 ?