etcd 空间满 pd 节点不工作 [solved]

GreenGuan · 2025 年3 月 3 日 01:59

记一次故障处理：业务侧反馈数据库无法访问，发现 tidb 宕机

尝试重启失败并报错：
error=“[PD:etcd:ErrEtcdGrantLease]etcdserver: mvcc: database space exceeded”

发现 etcd 的 db 达到最大限制(8G) ，该 db 位置在 {pd.data}/member/snap/db

解决方法：

调大 quota-backend-bytes（not work）
defrag etcd 元信息库并解除 alarm （work）
./etcdctl defrag --data-dir {pd.data}
./etcdctl alarm list
./etcdctl alarm disarm

希望原厂补充：

Billmay表妹 · 2025 年3 月 3 日 02:33

感谢总结

WalterWj · 2025 年3 月 3 日 03:02

关于 2/3：
etcd 监控我们新版本有梳理、增加了一些监控项，以及来源 tracing。
自动调整阈值这个我们需要先看下，看看 pd 在这种状态下能否自洽、调整 etcd 的配置、状态等

1 的话我们需要调研一下为何使用这么多。

心在飞翔 · 2025 年3 月 5 日 01:53

这个etcdctl工具是需要自己安装吗，7.5的版本，没有发现有这个工具

GreenGuan · 2025 年3 月 5 日 02:05

在下面的路径下
/home/tidb/.tiup/components/ctl/vx.x.x/etcdctl

心在飞翔 · 2025 年3 月 5 日 08:07

刚才找了相关的技术文章，有一点点官方建议

PD etcd 在新版本，存储空间配置为 8GB，这个不推荐调整过大。
TiDB cdc 在低版本会将 metaData ，包括表的状态信息，调度信息，都是存在 etcd 里面。另外如果执行了比较多的 ddl ，会导致这些信息短时间内增长较大。etcd 在没有及时整理的情况下，就有可能空间使用超过 8GB。
这个问题在 5.4 有相关优化代码，但是在 6.0 版本后才默认打开相关优化代码。

system · 2025 年3 月 12 日 08:07

此话题已在最后回复的 7 天后被自动关闭。不再允许新回复。