不可知因素引发的业务连续性中断,给客户带来巨大损失
传统数据中心到云环境,业务停机都会给公司带来巨大的经济损失和声誉影响。无论何时,客户都有业务连续性和紧急重大事故修复的诉求
保障业务连续性
恢复业务运作
满足期业演练需求
企业转向活动
应对紧急重大事件
规范运作机制
激活运维组织能力
提升人员意识
急迫的诉求:建立应急保障机制,并定期执行应急演练,可有效提高运维人员意识及应对突发重大紧急事件的能力,以满足业务连续的关键指标。同时满足企业应急演练要求。
结合日常运维场景,针对性的设计应急预案,考虑业务连续性的同时,将应急演练服务转换成能力资产。
MRS:
DWS:
DGC
应急名称 | 部件 | 故障现象/应用场景 |
---|---|---|
批量虚拟机无法访问应急恢复 | 全局 | 批量虚拟机出现故障,并且暂未定位到具体故障的部件 |
单个虚拟机无法访问应急恢复 | 全局 | 业务虚拟机无法访问 |
管理平台掉电应急处理 | 全局 | 系统出现计划外下电,需要应急恢复 |
单点登陆异常各个服务无法鉴权应急处理 | 全局 | 当ManageOne的鉴权服务出现异常,导致运维面无法登录时,如何取消单点登录,进入相关的运维页面进行紧急恢复操作 |
容灾切换 | 全局 | 发生站点级故障后的故障恢复 |
高阶服服务console框架 | 全局 | 全网高阶云服务页面(例如DWS、MRS、CCE、ROMA、RDS等)无法正常访问 |
ManageOne console框架 | 全局 | 全网租户页面使用无法正常使用,租户页面首页上不能显示(某个云服务在租户页面消失)或跳转某个云服务错误; |
ManageOne IAM统一鉴权 | 全局 | 全网租户页面使用无法正常使用,影响部分访问鉴权接口的云服务 |
LVS + Nignx二级负载均衡 | 全局 | 作为云平台所有管理面访问入口。LVS基于IP做四层负荷分担,Nginx基于各个云服务的配置做七层负载均衡 |
管理DNS | 全局 | 云平台中的云服务间访问多数采用域名方式,云平台管理DNS服务按Region(网省)部署独立为本Region提供DNS解析服务,根据错误的域名配置不同,可能影响部分服务页面访问,或全局性无法访问。全网租户页面无法打开;某个网省服务页面访问异常或某个服务全部网省访问异常 |
问题现象 | 故障点 | 相关部件 | 级别 | 触发场景 | 根因分析及处理情况 |
---|---|---|---|---|---|
租户页面反应卡顿,租户页面卡顿,影响客户使用 | IAM统一鉴权 | MRS ManageOne | 严重 | 客户使用 | 打开MRS页面时mrsapigw容器频繁调用IAM查询project用户组信息接口单个Region最大60次/秒引起IAM&Manage出现性能问题,影响正常使用;通过对IAM配置限流规避,并实施MRS补丁解决频繁调用问题 |
14个Region仅一个Region显示云安全服务(SCC),其他13个Region无法正常显示 | 云服务Console配置 | FusionGaurd | 中等 | 扩容云服务 | 扩容云服务后Console节点/opt/onframework/static/scc/sccConfig.json配置文件中缺少其他13个网省配置引起,通过补齐sccConfig.json节点信息恢复 |
问题现象 | 故障点 | 相关部件 | 级别 | 触发场景 | 根因分析及处理情况 |
---|---|---|---|---|---|
新扩容Region后,其他Region租户console后点击DWS页面后均提示需要跳转到新扩容Region(gs-region-2),无法正常使用DWS管理页面 | 线上Console Silvan全局信息 | DWS | 一般 | 升级后扩容场景 | 新建Region过程DWS安装工步中“注册Service Config” 子步骤中调用线上Silvan接口注册此Region信息,由于原630版本部署工步中未配置Service Config中Region信息(SuportRegions字段为空),新版本工具按首Region流程配置了新扩容Region的SuportRegions字段信息,引起其他租户console点击DWS页面后提示跳转到新建的Region,原来各Region的DWS页面无法正常使用,通过修改Silvan配置修复 |
DWS(630)升级后使用FCD重新部署Console注册Nignx阶段出现Console页面无法登录,全局性故障 | 公共组件Nignx全局配置 | DWS | 一般 | 升级场景重新部署console | 使用FCD部署工具部署630版本DWS过程重新向Nginx注册/dws配置与原有/dws配置冲突,引起Nignx进程无法启动。通过修改nginx配置文件恢复业务,由于10分钟内恢复,未引起报障 |
应急名称 | 部件 | 故障现象/应用场景 |
---|---|---|
批量虚拟机故障应急恢复 | OpenStack /Nova | 虚拟机vnc无法登录或者状态错误,并且业务受影响 |
虚拟机误删除恢复能力 | OpenStack /Nova | 虚拟机被用户误删除或者其他原因导致误删除 |
应急名称 | 部件 | 故障现象/应用场景 |
---|---|---|
OceanStor Pacific存储(链路)异常应急恢复 | OpenStack /OceanStor Pacific | 1、环境中多台虚拟机卡顿、卡死、无法正常加载操纵系统,2、OceanStor Pacific界面上报“MDC与VBS通信异常”告警,3、OceanStor Pacific界面上报“存储池故障”或“存储池容量不足”告警,4、运营面、运维面无法登录(管理存储异常可能出现此现象),5、发放虚拟机失败 |
IPSAN存储(链路)异常应急恢复 | OpenStack | 1、环境中多台虚拟机卡顿、卡死、只读、无法正常加载操纵系统,2、运维面上报“主机存储链路中断”告警,3、SAN存储界面上报“存储池剩余容量不足”告警,4、运营面、运维面无法登录(管理存储异常可能出现此现象),5、发放、变更虚拟机失败 |
FC SAN存储链路中断应急恢复 | OpenStack | 告警界面上在当前告警或历史告警页面中出现“主机光纤通道中断”的告警。说明:有可能主机上的光纤链路已经恢复了告警已经自动回复,但是虚拟机由于受之前链路故障的影响还没有自动恢复,所以这里需要检查历史告警 |
OBS 服务异常应急恢复 | 云服务 | ManageOne SC运营面上OBS服务Console无法正常访问出现“502”错误,或OBS服务异常 |
SFS 服务异常应急恢复 | 云服务 | ManageOne SC运营面上SFS服务Console无法正常访问出现“502”错误,或SFS出现服 |
应急名称 | 部件 | 故障现象/应用场景 |
---|---|---|
虚拟机无法获取IP应急处理(集中式DHCP) | OpenStack /Neutron | 集中式DHCP场景下没有IP的场景 |
虚拟机公网不通应急处理(Type I) | OpenStack /Neutron | Type I场景下虚拟机EIP不同的场景 |
VPC-Peering业务大面积中断应急处理(Type I) | VPC | 已创建的VPC对等连接业务无法正常工作,对等连接两端VPC子网无法互通 |
ELB业务大面积中断应急处理(Type I) | ELB | 使用elb部署的服务无法访问 |
ELB业务大量访问失败问题应急处理(Type I) | ELB | 租户使用ELB业务对外提供网站、APP等服务,外部客户端访问时出现大量访问失败的情况 |
VPN业务大面积中断应急处理(Type I) | VPN | 云外无法通过vpn访问云内虚拟机 |
基础型云专线业务大面积中断应急处理(Type I) | 云专线 | 多个专线网络业务无法访问远端网络 |
SNAT/DNAT业务大面积中断应急处理(Type I) | SNAT | 通过SNAT访问的业务出现异常,无法访问 |
裸金属节点网络异常应急处理(Type I) | BMS | BMS裸金属服务器云内网络或访问公网不通 |
L3GW业务大面积中断应急处理(Type I) | 增强型云专线 | 通过L3GW访问的业务出现异常,无法访问 |
L2BR业务大面积中断应急处理(Type I) | 二层桥接 | 通过L2BR访问的业务出现异常,无法访问 |
CC云连接业务中断应急处理(Type I) | 云连接(CC) | 已创建的VPC云连接业务无法正常工作,云连接两端VPC子网无法互通 |
-预期结果:
- 运维工程师按照既定的基础网络服务应急演练预案处理
- 故障表现和恢复时长满足预期要求
- 按照客户业务部署架构,客户生产业务不受影响
缩略语 | 英文全称 | 解释 |
---|---|---|
DWS | Data Warehouse Service | 数据仓库服务是一种基于公有云基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。 |
MRS | MapReduce Service | MapReduce服务打造了高可靠、高安全、易使用的运行维护平台,对外提供大容量的数据存储和分析能力,可解决各大企业的数据存储和处理需求。用户可以独立申请和使用托管Hadoop、Spark、Hbase和Hive服务,用于快速在主机上创建集群,提供海量数据的实时性要求不高的批量数据存储和计算能力。 |
CCE | cloud container engine | 云容器引擎(Cloud Container Engine)是为开发者、合作伙伴提供开发、部署、托管的容器应用平台,帮助用户快速、低成本地实现业务创新,缩短应用上市周期。 |
RDS | relational database service | 即关系型数据库服务,将关系型数据库以服务的形式提供给用户使用,它与关系型数据库的基本功能特性一致,主要是产品形态不同。 |
DNS | domain name server | 网域名称服务器,域名解析需要通过专门的域名解析服务器来完成,DNS就是进行域名解析的服务器。 |
IP SAN | Internet Protocol storage area network | 基于IP的存储区域网络 |
BMC | Baseboard Management Controller | 利用传感器来监视计算机、网络服务器或者是其他硬件驱动设备的状态,并且和通过独立的连接线路和系统管理员进行通信 |
MDC | MetaData Controller | 元数据控制设备,实现对分布式集群的状态视图控制,以及控制数据分布式规则、数据重建规则等 |
DMZ | Demilitarized Zone | 半信任区, 插在网络之间作为“中立区”的安全主机或小型网络(又称“掩蔽子网”), 以此形成一个安全缓冲区。 |
HA | High Availability | 高可用性,是用来保障业务不间断运行的一个组件,HA允许在一个集群资源许可情况下,将出现故障的主机上面的虚拟机在其他主机上启动起来,同时在虚拟机故障的情况下,会尝试恢复故障虚拟机。 |
VBS | Virtual Block System | 虚拟块系统,负责卷元数据的管理,提供分布式集群接入点服务,使计算资源能够通过VBS访问分布式存储资源。 |