我的tidb集群快要爆炸了

TiDBer_tvqzG8Dk · 2024 年8 月 16 日 13:28

问题1：访问 PD 报错：TiKV cluster is not bootstrapped

问题2：3节点的tikv集群，宕机一台后起不来缩容一直处于offline状态，无法正常下线

问题3：TiKV 节点日志庞大占用了硬盘百分之 80 的容量，修改了日志保留策略，删除了日志，一段时间后无写入报错硬盘无可用空间，结果 df -Th 查询空闲很多

问题4：TiKV metric 过多导致 prometheus 存储量巨大和 prometheus 多次重启

你也不要连开4帖了，多开的问题我给你删了，有问题一起解决吧。顺便帮你编辑了一下帖子标题 ——@有猫万事足

有猫万事足 · 2024 年8 月 16 日 15:31

是因为pd启动了以后，tikv没启动所以会报这个错。

问题2：3副本的情况下，最小也需要3节点，你宕机了一台的情况下，还要缩容一台，这没有办法满足3副本的要求，所以只能一直offline。

问题3：df -Th显示有，但是写入说没空间，感觉像是盘坏了。

问题4：观察一下targets那一页是否有些prometheus拉取指标的接口时间非常长。

总结一下，你应该优先考虑解决问题2，即想办法立刻满足3副本的要求。这个问题2解决了，问题1也会好。问题3有问题的机器放哪里吧，想办法找正常的机器扩容。问题4，这个不是非常重要，把前面的都解决掉了，再回来看也不迟。

像风一样的男子 · 2024 年8 月 17 日 00:47

我被标题吸引进来的。
我觉得问题2是很多刚接触tidb的人都容易遇到的问题，我本人新手时也这么操作过，建议在官方文档的缩容部分增加缩容条件，比如写明缩容后的tikv节点数必须大于等于副本数。

TiDBer_xTvoCh2f · 2024 年8 月 17 日 01:13

缩容应该报错，没有正常的多数节点不能缩容

tidb狂热爱好者 · 2024 年8 月 17 日 11:00

这是错误下线了

system · 2024 年10 月 16 日 11:00

此话题已在最后回复的 60 天后被自动关闭。不再允许新回复。