看下面这篇文章
VHA(Volume High Availability),即云硬盘高可用服务,为弹性云服务器和裸金属服务器中的云硬盘提供本地存储双活保护。当单套存储设备发生故障时,数据零丢失,业务不中断
组件 | 作用 | 典型部署原则 |
---|---|---|
VHA Console | 提供VHA服务控制台 | 部署在ManageOne静态服务器 |
BCManager eReplication | 作为VHA服务器,接收VHA管理控制台的请求 | 部署在Global层,虚拟化部署在OpenStack管理节点 |
生产存储 | 用于存放业务数据的存储设备。支持OceanStor V3/V5和Dorado V3 | 部署在POD/AZ,DC内每AZ至少部署2套,并配置双活关系 |
云服务器高可用服务(Cloud Server High Availability)为云服务器提供同城数据中心间的高可用保护。当生产中心发生灾难时,被保护的云服务器能够自动或手动切换到灾备中心
规划阶段
服务申请阶段
创建CSHA实例流程(申请后,后台自动完成):
自动切换逻辑:
在云数据中心,App和DB都运行于云服务器VM里,租户访问App,App生成的数据存储在DB里,通过云服务器VM将IO保存在存储设备中。在存储双活过程中,租户通过App将IO下发到DB,DB将IO下发到AZ1与AZ2的两台存储上,然后返回给主机,实现数据的实时镜像
在正常场景下,生产、容灾LUN均同时挂载于生产云主机;而容灾云主机不挂卷,因此不能启动
1、灾备组件BCManager eReplication实时监控站点间仲裁状态,若某一站点仲裁全部故障,则会触发BCManager eReplication对整站点的状态检查
2、以每个CSHA实例为单位,依次检查各实例所在存储的复制链路状态及AZ下全部计算节点的状态,若全部为故障状态,则判定为整站点故障,触发自动切换;否则判定为局部故障,不触发自动切换
局部故障场景下,用户可通过手动故障切换的方式把业务虚拟机切换到容灾站点
云服务器容灾服务(CSDR,Cloud Server Disaster Recovery)为ECS和BMS提供异地容灾保护。当生产中心发生灾难时,可在异地灾备中心恢复受保护的ECS/BMS
此外,弹性云服务器和裸金属服务器还可以配置本地存储双活保护,当生产中心单套存储设备发生故障时,数据零丢失,业务不中断
-
架构概述
方案亮点
约束限制
架构概述
当生产中心发生灾难时:
方案亮点:
架构概述
当生产中心发生灾难时:
方案亮点:
架构概述
当生产中心(Region1)故障时:
方案亮点:
架构概述
当生产中心故障时:
方案亮点:
云平台仲裁服务的仲裁逻辑
管理组件跨AZ高可用,为云平台提供Global及Region管理组件同城容灾保护(Region内跨两个AZ)。当生产中心发生灾难时,可自动在灾备中心恢复管理系统,从而继续提供运营运维服务。
ManageOne(含IAM/ SC/ OC等)、云服务Console、BCManager eReplication、ECS/EVS/VPC等云服务后端及OpenStack管理节点等,一套系统跨AZ拉远部署并自动数据同步
对于IAM、BCManager eReplication、OpenStack等影响业务恢复的关键组件,对接云平台仲裁/IAM仲裁,以便在一个站点故障时可在另一个站点快速自动恢复并提供管理功能。
对于ManageOne(除IAM外)在故障时需手工切换,其管理功能的恢复不影响业务的恢复。
改造过程
面向场景
约束条件:
支持的服务范围:只支持ManageOne 、OpenStack底座及部分IaaS基础服务,不支持高阶服务、APIG、VHA、SFS、安全服务、HiCloud服务、OCC服务、eSight。
不支持改造为两地三中心:只支持从无容灾演进到跨AZ容灾,不支持由跨Region容灾演进到两地三中心容灾。
不支持管理跨网段改造:只支持Internal_Base、External_OM、DMZ_Service、Storage_Data、Provision同VLAN、同子网二层改造,不支持跨子网不同网段改造。
要求管理网段存在空闲的连续IP地址:需要局部连续的External_OM平面地址至少40个,B2B场景需要局部连续的DMZ_Service平面地址至少3个,不支持非连续地址改造。
外部IP地址变化:ManageOne改造后对外IP地址发生变化,改造完成后需要修改外部DNS对应的IP或主机域名IP。
改造前手工检查:不支持改造前自动化容量(CPU/内存/可用IP地址数量)检查,需要在改造前人工检查,若资源(如IP地址等)不足,不能进行改造。
不支持改造过程中自动回退:当改造过程出现异常时,需要修复异常后继续进行改造。
约束条件:
管理组件跨Region容灾部署
管理组件跨Region容灾,为云平台提供Global管理组件(不含OpenStack等region级管理组件)异地容灾保护(跨两个region)。当生产中心发生灾难时,可在异地灾备中心恢复管理系统,从而给未发生灾难的数据中心继续提供运营运维服务。
Global管理组件容灾切换:当灾难发生时,管理员启用备Region的Global管理组件,而备ManageOne对接备Region内的LVS、Ngnix。存在如下两个方案:
管理组件两地三中心容灾部署
管理组件两地三中心容灾,为云平台提供Global及Region管理组件同城容灾保护(Region内跨两个AZ),及Global管理组件(不含OpenStack等region级管理组件)异地容灾保护(跨两个region)。当生产中心发生灾难时,可自动在同城灾备中心恢复管理系统;在同城两个站点均发生灾难时,可在异地灾备中心恢复管理系统,从而给未发生灾难的数据中心继续提供运营运维服务。
ManageOne(含IAM/ SC/ OC等)、云服务Console、BCManager eReplication、ECS/EVS/VPC等云服务后端及OpenStack管理节点等,一套系统跨AZ拉远部署并自动数据同步
对于IAM、BCManager eReplication、OpenStack等影响业务恢复的关键组件,对接云平台仲裁/IAM仲裁,以便在一个站点故障时可在另一个站点快速自动恢复并提供管理功能。
对于ManageOne(除IAM外)在故障时需手工切换,其管理功能的恢复不影响业务的恢复。
MRS支持通过主备集群方式实现跨AZ/Region容灾,用于应对机房/城市级的重大灾难,可以实现小时级别的RPO和RTO
主集群/容灾集群:需要提前规划两个集群。正常使用时,主集群提供数据和计算资源,同时主集群将数据向容灾集群进行复制。当主集群发生灾难时,备集群可以替代主集群提供数据和计算资源。容灾集群主用时,支持数据从容灾集群向主集群进行同步。支持手工切换主用备用关系。不要求两个集群规模相等
周期性复制与流式复制:
保护组与保护策略:支持按照要保护的数据设置保护组,一个保护组内可以包含多个服务(仅周期性)。支持基于保护组设置保护策略,例如要保护的数据、复制周期等。支持基于保护组进行启用和禁用,以及查看进度和历史日志
主要容灾操作:
业务的迁移:MRS作为平台层,可以保证数据和计算资源的容灾。但在进行主备切换时,需要用户配合进行业务迁移,例如更换服务端IP地址等。不支持用户业务无感知的容灾切换
组件 | 复制方式 | 保护对象和复制原理 |
---|---|---|
HDFS | 周期性 | 支持对指定的目录进行容灾保护,使用distcp方式进行增量数据复制 |
HBase | 流式 | 支持对用户业务表进行容灾保护,主集群的每个RegionSever实例将接收到的数据推送给备集群的HBase服务 |
Hive | 周期性 | 支持指定要保护的表,利用Metastore服务的接口查询并同步表元数据,利用Hadoop的快照执行Distcp拷贝表数据 |
Kafka | 流式 | 支持topic的容灾保护,基于MirrorMaker进行跨集群数据同步 |
Elasticsearch | 流式 | 支持索引数据保护,通过快照+备集群订阅主集群增量操作来进行同步 |
Redis | 流式 | 支持逻辑集群的保护,基于Redis主备实例间同步协议进行增量同步 |
Flink | 周期性 | 支持应用数据保护,通过同步DBservice数据+HDFS快照完成数据保护 |
ClickHouse | 流式 | 支持对分布式表/视图容灾保护,基于ZooKeeper跨集群同步操作日志,ClickHouse利用复制表副本同步能力完成数据容灾保护 |
Hetu | 周期性 | 支持对本地Hive数据源信息和UDF函数的容灾保护,基于DBservice数据同步+HDFS,Hive容灾能力完成容灾保护 |
缩略语
缩略语 | 英文全称 | 解释 |
---|---|---|
DC | data center | 数据中心 |
AZ | availability zone | 可用区,Region是最高等级的隔离,因为region是地理位置的隔离。AZ是比地理区域(region)低一级的隔离。 |
NAS | network-attached storage | 网络存储,NAS被定义为一种特殊的专用数据存储服务器,包括存储器件(例如磁盘阵列、CD/DVD驱动器、磁带驱动器或可移动的存储介质)和内嵌系统软件,可提供跨平台文件共享功能。 |
DNS | domain name server | 网域名称服务器,域名解析需要通过专门的域名解析服务器来完成,DNS就是进行域名解析的服务器。 |