原文链接:Java Chassis 3技术解密:注册中心分区隔离-云社区-华为云
注册中心负责实例的注册和发现,对微服务可靠运行起到举足轻重的作用。实例变更感知周期是注册中心最重要的技术指标之一。感知周期代表提供者的实例注册或者下线后,消费者感知实例注册或者下线的周期。影响实例变更感知周期的技术因素有很多。
此外,实例管理规模、支持元数据管理等也是注册注册中心比较常见的功能特性。比如Java Chassis 2要求注册中心必须支持契约的注册和管理。
Java Chassis 3的设计目标之一,就是降低对于注册中心功能的依赖,能够支持尽可能多的注册中心,而不降低微服务自身的可靠性。 在描述 Java Chassis 3的实例管理机制之前,先讨论一个典型的问题:注册中心分区隔离。
注册中心分区隔离是指如下场景:
微服务提供者与注册中心之间的网络发生故障,而服务消费者与注册中心之间的网络是正常的,即产生分区隔离。在发生分区隔离的场景下,现有的保活机制都会认为微服务提供者下线,进而导致微服务消费者访问微服务提供者出现大规模失败。分区隔离通常会发生在注册中心在多AZ部署/容灾的场景,微服务提供者和微服务消费者连接的是不同AZ的注册中心实例。在微服务提供者和消费者跨AZ部署的时候,也可能发生。
注册中心分区隔离故障会造成大面积的应用调用失败,是注册中心有关故障中,最严重的故障之一。
Ribbon在客户端提供了?IPing
?接口来检测实例故障,以检测注册中心错误下线实例,而实例实际可以工作的场景。 该机制在多数场景工作良好,然而在容器场景下,可能长期保留错误的实例。因为微服务提供者不是由于分区隔离错误,而是重启的场景下,如果原来的端口被其他服务占用,则会导致微服务消费者始终保留错误的实例。
public interface IPing {
boolean isAlive(Server server);
}
Spring Cloud的机制和Ribbon类似,提供了?HealthCheckServiceInstanceListSupplier
?,并允许开发者定义实例监控状态检测方式。
Java Chassis结合实例是否在注册中心查询到(History)、实例状态(Status)、Ping状态(Ping)、隔离状态(Isolation)将实例分组,并给不同的组分配不同的优先级。
在?Java Chassis 3技术解密:负载均衡选择器
?中,解密了Java Chassis分组实例使用的机制。当出现注册中心分区隔离的情况,实例在注册中心查询不到,仍然被保留到了?History
?分组,只要实例 Ping 状态正常, 这个实例仍然会被使用, 从而防止了实例被错误下线。
Java Chassis还设计了新的Ping机制,解决容器场景下,可能长期保留错误的实例的问题。 Ping机制的核心逻辑包含如下几个部分:
Java Chassis提供了新的健康检查接口:
@RestSchema(schemaId = ManagementEndpoint.NAME, schemaInterface = ManagementEndpoint.class)
public class ManagementEndpointImpl implements ManagementEndpoint {
private RegistrationManager registrationManager;
@Autowired
public void setRegistrationManager(RegistrationManager registrationManager) {
this.registrationManager = registrationManager;
}
@Override
public boolean health(String instanceId, String registryName) {
String mySelf = registrationManager.getInstanceId(registryName);
if (StringUtils.isEmpty(mySelf)) {
return false;
}
return mySelf.equals(instanceId);
}
}
Java Chassis 2结合Service Center的功能设计,共同保障了注册发现的可靠性。Java Chassis 3通过应用客户端技术,降低了对于注册中心的依赖,使得 Java Chassis 3使用不同的注册中心都能够取得很高的可靠性。 内置的实例状态分组管理和创新的Ping机制设计,使得 Java Chassis 3在注册中心分区隔离故障条件下也能稳定的工作。
客户故事:注册中心推空故障是?
Nacos
?的经典故障,对于系统可靠性运行产生了非常大的影响。推空故障的影响机制和分区隔离故障的影响机制类似。借助于Java Chassis 3,能够将业务影响的时间和范围降到最低。