如果方便的话,tiflash_tikv.log 也麻烦上传一下。
您这面使用的是 tiup 1.34 版本,这个版本有一个 bug,会导致 tiflash 的监控失效。可以升级一下 tiup
另外我和我们运维沟通了下,得到个消息是,73那个机器是周日的时候因为未知原因down机了,运维同事收到监控后,怎么也连接不上这台机器(aws的),最后再aws的ui界面进行了重启,重启后,73和69两个节点的tiflash就再也起不来了
好的,我升级下
麻烦先明确一下是什么原因,73 的机器 down 了。
目前来看是未知原因,如果是机器正常的关机和重启不会有今天这个问题是吗,您是怀疑有些环境发生了改变?
是的。我们也在排查问题。
能查看一下 dmesg 吗?
好的谢谢谢谢,我们系统部在排查机器宕机原因,我这也再排查tiflash问题,您也请帮忙排查下,因为是生产节点,还烦请多操点心,谢谢了谢谢了
操作系统命令 dmesg
Aws排查结果是机器没问题,由于服务原因造成的宕机,那两台机器只有tiflash,然后运维的排查结果是挂机之前负载并不高。并且69机器没有重启过,也宕机了
您好,想问一下,您昨日重启以后有什么进展吗?这个问题我们还在排查这个问题。
因为是生产环境,跟领导沟通了下我们暂时不能重启,我们准备重启两个新节点代替那两个,再继续排查这两个的问题
有消息会和您同步
目前我们的研发也在跟进这个问题
好的收到,谢谢谢谢,我们目前是进行了扩容2个节点来替代,先让生产正常服务,然后再研究这两个节点的问题
我们扩容了两个临时tiflash,那之前down的store和下面pending的region之类的要怎么处理呢
down 掉的 tiflash 结点现在的状态是什么。如果不需要了可以使用 pd-ctl 删除掉这个 store。