tidb 中控机服务器系统非正常关机造成文件系统损坏

为提高效率,提问时请提供以下信息,问题描述清晰可优先响应。
* 【TiDB 版本】:

[tidb@tidb-1 ~]$ /data/tidb/deploy/bin/tidb-server -V
Release Version: v4.0.0-alpha-1327-g86ff21b07
Git Commit Hash: 86ff21b07630a5cef4af053970e5c20182b740fb
Git Branch: master
UTC Build Time: 2020-01-07 12:58:31
GoVersion: go1.13
Race Enabled: false
TiKV Min Version: v3.0.0-60965b006877ca7234adaced7890d7b029ed1306
Check Table Before Drop: false

* 【问题描述】:
tidb 中控机服务器系统非正常关机造成文件系统损坏
截图如下:

困惑:
在中控机无法恢复的情况下,我要怎么恢复中控机以及集群中的整个数据?

整个集群架构是 2 tidb, 3个(pd+tikv)

1、需要明确下,tidb 的中控机做集群的统一部署和管理,不存储 tidb 集群的业务数据。所以,中控机异常,原则上不会影响集群的正常使用。

2、但是如果中控机作为多个角色,比如也同时作为 tikv 节点,那么此时会存储业务数据

3、如果是在中控机上同时部署了 tikv 或者 pd,tikv 中数据默认 3 副本,通过 pd 调度,将各个副本调度到各 store 。如果其中一个 store 节点异常,那么还有两副本可以完成 leader 选举,选举完成后,继续提供服务,故原则上不会影响集群的正常使用。

4、你那里现在配置的拓扑结构具体情况是什么?

5、通过什么方式判断的集群状态异常?

6、生产环境不建议使用 master 分支,目前的稳定版本为 3.0.9

中控机上有tidb-server节点。这台机器是云服务器,春节放假前关机了,现在启动起来,进入服务器提示连接超时。

拓扑结构:

5、启动服务器,ssh登录不上,通过云服务器的中控台登录,发现系统文件提示相关的信息,提示我上面发图片里的信息。
6、3.0.9版本我直接在线升级会不会有问题

问题服务器是tidb1-server

1、按照这个架构中控机异常,不会影响集群环境的正常使用

2、如果是 tidb server 的文件系统损坏,不建议继续使用该服务器,可能存在未知风险,建议使用扩容一个信息的 tidb 节点,继续提供服务

3、如果是重新部署 ansible 中控机,可以再次下载对应 version 的 ansible 文件,并且按照当前的拓扑重新编辑下 inventory.ini,以及 tidb,tikv,pd 节点的参数模板文件 /tidb-ansible/conf/ 目录下

4、目前不建议直接降级,建议新搭建一套集群,通过数据迁移的方式迁移到 tidb 的目前的稳定版本 3.0.9

能否把3.0.9 相应版本的下载链接地址帮我发一个过来?

官网有相应的描述,建议看下:

https://pingcap.com/docs-cn/stable/how-to/deploy/orchestrated/ansible/#第-3-步在中控机器上下载-tidb-ansible

好的,谢谢

好的,如果还有其他问题,请重新开贴,继续沟通

此话题已在最后回复的 1 分钟后被自动关闭。不再允许新回复。