故障管理是网络管理的组成部分,涉及检测、隔离和解决问题,如果实施得当,网络故障管理可以使连接、应用程序和服务保持在最佳水平,提供容错能力并最大限度地减少停机时间,专门为此目的设计的平台或工具称为故障管理系统。
另一方面,只有在停电发生后才发现故障并将其告知现场团队是没有用的,当网络管理员努力定位、分析和解决问题时,可能会出现明确的生产力损失和操作故障,理想的故障管理系统应该能够在潜在的中断发生之前检测到它,并在它影响最终用户之前采取预防措施。它甚至可以自动执行 L1 和 L2 故障排除任务,使网络管理员能够专注于其他关键任务。
网络故障管理是以最快的方式查找、隔离和排除网络故障的过程。故障管理是网络管理的重要组成部分,它通过快速解决故障来最大限度地减少停机时间并防止设备故障,从而确保最佳的网络可用性并防止业务损失。
网络故障监控是故障管理的第一步,因此是成功进行网络管理的必要条件。如果不是故障管理系统,混合网络基础设施的复杂性日益增加,将使故障管理过程变得繁琐。故障管理工具遵循四步周期来解决问题,如下所示:
OpManager 是一种故障监控软件,通过网络设备监控持续监控网络设备中的故障,并通过实现高级警报监控功能来简化网络警报管理过程。可以有效地执行故障监控,并帮助管理员快速确定问题的根本原因,并在最终用户注意到问题之前进行修复。
在网络监控警报的情况下执行智能事件处理。它关联原始网络事件,过滤不需要的事件,并仅向操作员提供有意义的警报。它支持以用户友好格式呈现的颜色编码警报。管理员可以查看与告警关联的事件历史记录,并手动清除或删除告警。
每当发生警报时,通知机制可以通过短信和/或电子邮件通知管理员,还可以配置为在发生警报时自动运行外部程序或自主开发的脚本。
现在的大多数网络设备都能够在发生故障时发送SNMP陷阱。一个好的故障监控系统应该能够支持SNMP陷阱,并为操作员提供有意义的信息。 OpManager 故障监控工具,它通过提供对基本SNMP陷阱的开箱即用的支持来做到这一点。操作员还可以添加对来自任何自定义SNMP MIB的陷阱的支持。还可以提取与SNMP陷阱一起作为变量绑定(SNMP varbinds)发送的有用信息。
故障监视器支持各种警报机制,并且可以在设备或服务出现故障时向操作员发出警报,还可以配置为在设备上的服务或运行状况检查计数器超过或低于特定限制时向操作员发出警报,操作员还可以添加对来自任何自定义SNMP MIB的陷阱的支持。
在同时处理多个警报时, OpManager 允许操作员快速标记他们已经启动操作的警报,就像将电子邮件标记为已读或未读一样,确认警报是另一个小而非常有用的功能,操作员可以跟踪新警报以及已经读取并采取行动的警报。
OpManager的故障管理系统以自动化的分步方式执行故障修复过程,如下所示:
OpManager 作为网络故障管理系统的强大功能可帮助管理员检测、恢复和限制网络故障的影响,通过ICMP ping、TCP 或 UDP 端口检查、自定义脚本、远程查询等检查设备状态来检测事件。