故障管理过程

发布时间:2023年12月25日

故障管理

故障管理在故障生命周期中的位置

  • 分维度统计分析规律,形成系统化的改进方向
  • 跟进每个case的改进方案,彻底消除隐患
  • 前事不忘后事之师,供后续参考

故障定级

事故级别服务级别一般事故严重事故重大事故特大事故
对外完全停止服务时间一级服务1-3分钟3-10分钟10-30分钟30分钟以上
二级服务5-10分钟10-30分钟30-60分钟60分钟以上
三级服务10-30分钟30-60分钟60分钟以上不适用
服务部分故障导致的流量损失占单日总流量比一级服务0.15%-0.45%0.45%-1.5%1.5%-4.5%4.5%以上
二级服务0.75%-1.5%1.5%-4.5%4.5%-9%9%以上
三级服务1.5%-4.5%4.5%-9%9%以上不适用
服务功能异常或严重影响用户体验,受影响访问量占单日总流量比一级服务3%-9%9%-30%30%-90%90%以上
二级服务15%-30%30%-90%90%-180%180%以上
三级服务30%-90%90%-180%180%以上不适用
更新延迟或数据错误一级服务延迟2小时以内延迟2-12小时延迟超过12小时更新延迟超过12小时且无法恢复
二级服务延迟2小时以内延迟2-12小时延迟超过12小时更新延迟超过12小时且无法恢复
三级服务延迟12小时以内延迟12-24小时更新延迟超过24小时且无法恢复不适用
收入损失:以最近季度财报中总营收/90计算为单日平均营收,收入损失阈值以单日平均营收百分比计算一级服务0.2% ~ 0.5%0.5% ~ 1%1% ~ 3%>3%
二级服务0.2% ~ 0.5%0.5% ~ 1%1% ~ 3%>3%
三级服务0.2% ~ 0.5%0.5% ~ 1%1% ~ 3%>3%

故障管理流程

case必填字段

  • Case:标题、故障发生时间、故障发现时间、止损操作开始时间、止损操作完成时间、止损生效完成时间、服务恢复时间、内容、负责人、损失数量、损失比例、损失类型、触发原因、根因分类、故障持续时长、所属业务、分级发布是否拦截、故障范围。
  • TODO:负责人、所属业务、预计完成时间、解决优先级

文章来源:https://blog.csdn.net/y_xianjun/article/details/135200153
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。