自学26小时--tidb的成本怎么省,能把ec2当成服务选择单副本么?

其实我一直在思考一个问题,关于成本 复杂性的问题。

以aws的基础建设为例。s3是多副本的,文件是不会丢的。可用性99.9999999

ec2的本地磁盘会丢。但ssd的寿命也很长

ec2其实也能存活很久不重启

ebs,也是三副本。默认百分百完备。

那么在云上是否还真的必要过度设计用三副本

还是像automq一样。把ecs当成云服务。自动拉起。拉起不来,做主动恢复。把ebs挂载到新的ecs上拉起。

这样的成本最少低了三倍。

这也是automq成本比kafka低了10%的原因。
我猜官方的 tidbserverless 肯定也是这么设计的。希望官方给解答一下。

阿里云单 ECS 实例承诺的 SLA 为 99.975%,也就是说,在云上以单 ECS 节点的形式部署一个服务,能做到 3 个 9 以上的可用性,这实际上已经是生产可用的,能满足很多业务的可用性要求。以 AutoMQ 为例,选取一个 2C16G 的 ECS 部署一个单节点的 AutoMQ 集群,就能提供 3 个 9 的可用性以及 80MiB/s 的写入能力,成本可以说是做到了极致。

AutoMQ 在设计之初就将 ECS 当成了云服务来看待,而不是物理主机,在 ECS 出现故障时,我们更多地依赖 ECS 节点能快速恢复,比如宕机的时候能自动迁移和自动拉起。只有在失去某个节点连续的数个心跳后,AutoMQ 的主动 Failover 能力才会进行介入。这样设计的考虑点主要有以下两点:

  • 对于物理机硬件故障或内核故障问题,ECS 能做到宕机后秒级恢复,所以 AutoMQ 依赖 ECS 的快速恢复能力来处理这类故障,同时也避免主动 Failover 能力过于灵敏带来不必要的容灾处理。
  • 当出现 ECS 宕机、网络分区、甚至 AZ 级故障时,AutoMQ 的 Failover 能力才会生效,通过 ESSD 和 OSS 提供的能力做进一步主动的容灾。

03 弹性伸缩 ESS

在 2024 的 3 月份,AutoMQ 与阿里云进行了联合发布,正式上架阿里云云市场进行售卖。从 AutoMQ 内核的 GA 到快速登陆阿里云市场,这背后有两款产品的助力,第一款是阿里云计算巢,它为服务商提供了标准化的交付流程,另一款就是弹性伸缩 ESS。AutoMQ 存算分离的架构虽然天然亲和弹性伸缩,但想要提供自动伸缩的能力,也并非易事 [4],AutoMQ 使用 ESS 来简化最后一公里的交付之路。

:flushed:大佬,01和02呢,强迫症患者表示蓝瘦~ :flushed:

https://aws.amazon.com/cn/blogs/china/using-automq-to-optimize-kafka-costs-and-efficiency-at-scale/
原文太长 大佬这里看

没用过云的

围观围观