tikv 扩所容以后,tikv 3个节点一直处于选举状态,且tidb 也无法正常up

【 TiDB 使用环境】测试
【 TiDB 版本】7.1.0
【复现路径】轮流下线tikv 且相差时间很短,后面全部上线
【遇到的问题】tikv 一直处于选举的情况,然后tidb 无法正常启动,提示等待时间过长,然后我下掉一个节点然后重启集群后出现下列集群状态
【资源配置】



这个是我重启集群后其他监控插件也无法启动了

看日志参与选举region_id值是一直在变化

:+1:咋搞成这样的

tikv有一个没起来,有报错吗 ,看看那个tikv日志,发error级别日志看看

需要查看各个组件的运行日志,找出有异常的地方发上来

有一个选举的参数可以调整,具体记不清名字了

1 个赞

3个节点扩几个节点呢?

一般3扩5吧,4个可能有脑裂 :thinking:

我同事,一直在持续关闭启动节点,然后就这样了,今天上班以后发现tidb 正常了,但是我用了缩容命令的那个节点,还是处于待下线状态。。。等的时间好久。现在在看数据库是否可用

现在就是监控的插件,还有我缩容的那个节点还没成功下线。。。现在在尝试强制关掉进程然后看看了

直接一直关闭,启动,就这样了。。好像3个节点都做过关闭启动的操作。开发那里让这样操作的,他们在压数据的过程中,这样操作的。主要是重平衡还没完,他们就一直这样操作。

pd 上有报错

现在tiup cluster display 什么状态

我看你down的组件还挺多,包括监控相关组件,正常来说,这个组件和集群完全没啥关系,你追下日志看咋起不来
然后tikv组件是没有选举的,Tidb集群是region层面做raft复制,region选举失败应该也不会导致tikv进程失败,所以还得看看为啥tikv起不来

你这个就是有个tikv节点有问题了吧,扩容一个tikv节点尝试一下,另外监控哪些节点应该是没问题的,你单独重启下看看。

你就3个tikv,还有一个是pending offline。
3副本的情况下,肯定是一直选举。
你要扩容一个tikv,才能缩容掉这个pending offline的。

2 个赞

到PD里看一下,分区是否有变化。

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。