pd的leader找不到,导致集群不可用

【 TiDB 使用环境】生产环境 /测试/ Poc
【 TiDB 版本】
【复现路径】做过哪些操作出现的问题
juicefs+tikv的架构,日常跑任务的情况下,pd的leader找不到了导致集群不可用
【遇到的问题:问题现象及影响】
pd日志报错:load from etcd meet error,第一个报错时间为11:29,然后会有一段时间的,内存和协程的暴涨,最后也无法自动恢复,必须手动restart集群
【资源配置】进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面
【附件:截图/日志/监控】

c1f49cd15f892f95b88bd9dfa01421e

准生产环境,这种情况出现好多次了


由于看到v7.1.0更新了这个bug,所以我们升级成为了这个版本,现在看来这个并不能解决我们的问题

进入到 TiDB Dashboard -集群信息 (Cluster Info) -主机(Hosts) 截图此页面 这个截图一下

谢谢表妹的回复 但是我们的dashboard安全问题暂时无法登录需要申请 表妹想看具体哪个监控图呢 我可以从grafana上截图看

日志显示 etcd 读写超时,看看机器的 CPU 或者硬盘是不是打爆了
后边的内存和协程暴涨,可能是前边超时后引起雪崩了



这是其他的一些日志分别是pd.log和pd_stderr.log
我们去开启持续分析 后续如果捕获到再反馈给您

tiup cluster display 集群名称

这样查一下也可以,不会是混布吧?

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。