记一次故障处理:业务侧反馈数据库无法访问,发现 tidb 宕机
尝试重启失败并报错:
error=“[PD:etcd:ErrEtcdGrantLease]etcdserver: mvcc: database space exceeded”
发现 etcd 的 db 达到最大限制(8G) ,该 db 位置在 {pd.data}/member/snap/db
解决方法:
- 调大 quota-backend-bytes(not work)
- defrag etcd 元信息库并解除 alarm (work)
./etcdctl defrag --data-dir {pd.data}
./etcdctl alarm list
./etcdctl alarm disarm
希望原厂补充:
- 该报错原厂建议升级到 v4.0.9 及以后版本, 我们的版本是 5.1.1 也复现了问题 ,可否帮忙确认下那个版本之后修复了该问题;
- quota-backend-bytes 这个值如果不建议调整,那么是否可以废弃,亦或可以调整可否设置自动扩容机制
- 我们是否有针对 etcd 元信息库的大小的监控项?