C 代表 Consistency,一致性,是指所有节点在同一时刻的数据是相同的,即更新操作执行结束并响应用户完成后,所有节点存储的数据会保持相同。在电商系统中,A、B、C 中存储的该电吹风的数量应该是 20+10+30=60。假设,现在有一个北京用户买走一个电吹风,服务器 A 会更新数据为 60-1=59,与此同时要求 B 和 C 也更新为 59,以保证在同一时刻,无论访问 A、B、C 中的哪个服务器,得到的数据均是 59。
A 代表 Availability,可用性,是指系统提供的服务一直处于可用状态,对于用户的请求可即时响应。在电商系统中,用户在任一时刻向 A、B、C 中的任一服务器发出请求时,均可得到即时响应,比如查询商品信息等。
P 代表 Partition Tolerance,分区容错性,是指在分布式系统遇到网络分区的情况下,仍然可以响应用户的请求。网络分区是指因为网络故障导致网络不连通,不同节点分布在不同的子网络中,各个子网络内网络正常。在电商系统中,假设 C 与 A 和 B 的网络都不通了,A 和 B 是相通的。也就是说,形成了两个分区{A, B}和{C},在这种情况下,系统仍能响应用户请求。
一致性、可用性和分区容错性,就是分布式系统的三个特征。
CAP 理论又是什么呢?
CAP 理论指的就是,在分布式系统中 C、A、P 这三个特征不能同时满足,只能满足其中两个,如下图所示。这,是不是有点像分布式系统在说,这顶“帽子”我不想要呢?
除了以上这两种方案,没有其他方案可以选择。可以看出:在满足分区容错性 P 的前提下,一致性 C 和可用性 A 只能选择一个,无法同时满足。
CAP 选择策略及应用
分布式系统无法同时满足 CAP 这三个特性,那该如何进行取舍呢?
C、A 和 P,没有谁优谁劣,只是不同的分布式场景适合不同的策略。接下来,以一些具体场景为例,分别介绍保 CA 弃 P、保 CP 弃 A、保 AP 弃 C 这三种策略,以面对不同的分布式场景时,知道如何权衡这三个特征。
对于涉及钱的交易时,数据的一致性至关重要,因此保 CP 弃 A 应该是最佳选择。而对于其他场景,大多数情况下的做法是选择 AP 而牺牲 C,因为很多情况下不需要太强的一致性(数据始终保持一致),只要满足最终一致性即可。最终一致性指的是,不要求集群中节点数据每时每刻保持一致,在可接受的时间内最终能达到一致就可以了。
适合保证 AP 放弃 C 的场景有很多。比如,很多查询网站、电商系统中的商品查询等,用户体验非常重要,所以大多会保证系统的可用性,而牺牲一定的数据一致性。
目前,采用保 AP 弃 C 的系统也有很多,比如 CoachDB、Eureka、Cassandra、DynamoDB 等。
对比分析
知识扩展:CAP 和 ACID 的“C”“A”是一样的吗? 首先,我们看一下 CAP 中的 C 和 ACID 中的 C 是否一致。 CAP 中的 C 强调的是数据的一致性,也就是集群中节点之间通过复制技术保证每个节点上的数据在同一时刻是相同的。 ACID 中的 C 强调的是事务执行前后,数据的完整性保持一致或满足完整性约束。也就是不管在什么时候,不管并发事务有多少,事务在分布式系统中的状态始终保持一致。 其次,我们看一下 CAP 中的 A 和 ACID 中的 A。 CAP 中的 A 指的是可用性(Availability),也就是系统提供的服务一直处于可用状态,即对于用户的请求可即时响应。 ACID 中的 A 指的是原子性(Atomicity),强调的是事务要么执行成功,要么执行失败。 因此,CAP 和 ACID 中的“C”和“A”是不一样的,不能混为一谈。