【 TiDB 使用环境】测试
【 TiDB 版本】7.1.0
【复现路径】轮流下线tikv 且相差时间很短,后面全部上线
【遇到的问题】tikv 一直处于选举的情况,然后tidb 无法正常启动,提示等待时间过长,然后我下掉一个节点然后重启集群后出现下列集群状态
【资源配置】
这个是我重启集群后其他监控插件也无法启动了
【 TiDB 使用环境】测试
【 TiDB 版本】7.1.0
【复现路径】轮流下线tikv 且相差时间很短,后面全部上线
【遇到的问题】tikv 一直处于选举的情况,然后tidb 无法正常启动,提示等待时间过长,然后我下掉一个节点然后重启集群后出现下列集群状态
【资源配置】
看日志参与选举region_id值是一直在变化
咋搞成这样的
tikv有一个没起来,有报错吗 ,看看那个tikv日志,发error级别日志看看
需要查看各个组件的运行日志,找出有异常的地方发上来
有一个选举的参数可以调整,具体记不清名字了
3个节点扩几个节点呢?
一般3扩5吧,4个可能有脑裂
我同事,一直在持续关闭启动节点,然后就这样了,今天上班以后发现tidb 正常了,但是我用了缩容命令的那个节点,还是处于待下线状态。。。等的时间好久。现在在看数据库是否可用
现在就是监控的插件,还有我缩容的那个节点还没成功下线。。。现在在尝试强制关掉进程然后看看了
直接一直关闭,启动,就这样了。。好像3个节点都做过关闭启动的操作。开发那里让这样操作的,他们在压数据的过程中,这样操作的。主要是重平衡还没完,他们就一直这样操作。
现在tiup cluster display 什么状态
我看你down的组件还挺多,包括监控相关组件,正常来说,这个组件和集群完全没啥关系,你追下日志看咋起不来
然后tikv组件是没有选举的,Tidb集群是region层面做raft复制,region选举失败应该也不会导致tikv进程失败,所以还得看看为啥tikv起不来
你这个就是有个tikv节点有问题了吧,扩容一个tikv节点尝试一下,另外监控哪些节点应该是没问题的,你单独重启下看看。
你就3个tikv,还有一个是pending offline。
3副本的情况下,肯定是一直选举。
你要扩容一个tikv,才能缩容掉这个pending offline的。
到PD里看一下,分区是否有变化。
此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。