我的tidb集群快要爆炸了

问题1:访问 PD 报错:TiKV cluster is not bootstrapped

问题2:3节点的tikv集群,宕机一台后起不来缩容一直处于offline状态,无法正常下线

问题3:TiKV 节点日志庞大占用了硬盘百分之 80 的容量,修改了日志保留策略,删除了日志,一段时间后无写入报错硬盘无可用空间,结果 df -Th 查询 空闲很多

问题4:TiKV metric 过多导致 prometheus 存储量巨大和 prometheus 多次重启


你也不要连开4帖了,多开的问题我给你删了,有问题一起解决吧。顺便帮你编辑了一下帖子标题 ——@有猫万事足

问题1:https://docs.pingcap.com/zh/tidb/stable/manage-cluster-faq#访问-pd-报错tikv-cluster-is-not-bootstrapped

是因为pd启动了以后,tikv没启动所以会报这个错。

问题2:3副本的情况下,最小也需要3节点,你宕机了一台的情况下,还要缩容一台,这没有办法满足3副本的要求,所以只能一直offline。

问题3:df -Th显示有,但是写入说没空间,感觉像是盘坏了。

问题4:观察一下targets那一页是否有些prometheus拉取指标的接口时间非常长。


总结一下,你应该优先考虑解决问题2,即想办法立刻满足3副本的要求。这个问题2解决了,问题1也会好。问题3有问题的机器放哪里吧,想办法找正常的机器扩容。问题4,这个不是非常重要,把前面的都解决掉了,再回来看也不迟。

1 个赞

我被标题吸引进来的。
我觉得问题2是很多刚接触tidb的人都容易遇到的问题,我本人新手时也这么操作过,建议在官方文档的缩容部分增加缩容条件,比如写明缩容后的tikv节点数必须大于等于副本数。

缩容应该报错,没有正常的多数节点不能缩容

这是错误下线了

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。