tidb

TiDBer_pALU2dxO · 2024 年10 月 9 日 02:46

【 TiDB 使用环境】生产环境
【 TiDB 版本】3.0
线上一个集群，一半盘满了，一半盘坏了，这种情况怎么处理

呢莫不爱吃鱼 · 2024 年10 月 9 日 02:48

描述的再详细些吧 ……哪些服务对应的哪些磁盘，磁盘情况是什么样的。

TiDBer_pALU2dxO · 2024 年10 月 9 日 02:51

/dev/sdb xfs 1.8T 1.8T 20K 100% /data1
/dev/sdc xfs 1.8T 1.3T 488G 73% /data2

ls: cannot access /data2: Input/output error
线上实例都是这种一台服务器上面两个tikv节点，现在几乎所有服务器都有一块磁盘满了，一块磁盘没满，但是坏了

呢莫不爱吃鱼 · 2024 年10 月 9 日 03:00

集群中一半的磁盘出现问题，可能存在数据丢失的风险，建议先备份关键数据，然后使用 PD 的调度功能将 Region leader 从问题节点转移出去，再添加新的 TiKV 节点，让 PD 自动平衡数据。

呢莫不爱吃鱼 · 2024 年10 月 9 日 03:01

也可以先提下工单，看下磁盘到底什么问题，是否可以修复。

Kongdom · 2024 年10 月 9 日 03:26

建议通过扩缩容的办法，将故障节点逐个替换掉

tidb菜鸟一只 · 2024 年10 月 9 日 06:21

你这相当于基本一半副本都挂了，这个很难了，看看坏掉的磁盘还有修复的可能吗？

zhaokede · 2024 年10 月 9 日 06:25

先扩容，看能保多少数据

小龙虾爱大龙虾 · 2024 年10 月 9 日 06:30

为什么会出现多台机器同时坏盘的情况呢，这种几率很小吧？
所有一块磁盘满了，这个监控没监控到吗？我认为这套集群很久前状态就不正常了吧，正常情况下，数据是自动平衡的。

zhanggame1 · 2024 年10 月 9 日 06:40

满了是什么文件满了，tidb不可能写到100%

TiDBer_xTvoCh2f · 2024 年10 月 9 日 07:47

监控必须加