【 TiDB 使用环境】生产环境
【 TiDB 版本】3.0
线上一个集群,一半盘满了,一半盘坏了,这种情况怎么处理
描述的再详细些吧 ……哪些服务对应的哪些磁盘,磁盘情况是什么样的。
/dev/sdb xfs 1.8T 1.8T 20K 100% /data1
/dev/sdc xfs 1.8T 1.3T 488G 73% /data2
ls: cannot access /data2: Input/output error
线上实例都是这种一台服务器上面两个tikv节点,现在几乎所有服务器都有一块磁盘满了,一块磁盘没满,但是坏了
集群中一半的磁盘出现问题,可能存在数据丢失的风险,建议先备份关键数据,然后使用 PD 的调度功能将 Region leader 从问题节点转移出去,再添加新的 TiKV 节点,让 PD 自动平衡数据。
也可以先提下工单,看下磁盘到底什么问题,是否可以修复。
建议通过扩缩容的办法,将故障节点逐个替换掉
你这相当于基本一半副本都挂了,这个很难了,看看坏掉的磁盘还有修复的可能吗?
先扩容,看能保多少数据
为什么会出现多台机器同时坏盘的情况呢,这种几率很小吧?
所有一块磁盘满了,这个监控没监控到吗?我认为这套集群很久前状态就不正常了吧,正常情况下,数据是自动平衡的。
满了是什么文件满了,tidb不可能写到100%
监控必须加