云卷云舒:面向业务的智能运维(中)

发布时间:2023年12月25日

接着聊:云卷云舒:面向业务的智能运维(上)

4、业务智能运维体系架构

4.1 智能运维核心要素

智能运维体系架构的建设应该考虑如下因素:

数据

我们要搭建智能运维平台,首先要数据驱动,数据驱动下要做好以下几件事:

  • 海量数据存储:运维数据的量级是亿级、TB甚至PB级别的,所以存储系统一定要具备高容量和扩展性;
  • 数据多样化:运维过程产生的数据多种多样,如应用产生的性能数据,服务器基础监控产生的CPU/IO/Net数据,服务间调用链数据、日志数据等,那么需要针对不同类型数据进行区别化的存储结构的设计,保证数据存储的扩展性,同时建立数据之间的关联支点;

分析能力

分析能力是智能运维平台的核心,可以应用大数据+机器学习的分析能力,结合成熟的开源分析算法实现基本的数据分析,再结合具体的应用场景,做出一些适应性改造或匹配来实现相对较好的分析效果,千万不要只想着做出来一个分析平台来,这个平台做出来不是难事,关键在于这个平台在运维领域没有实际意义。

运用起历史数据的价值,且可以有效识别出数据的各维度的规律,如周期性、趋势等,而且分析能力必须结合应用场景,判别相对适合的算法模型来训练数据,方能保证预期的设想。

分析能力可以随着时间的推移不断的演进,可以将新数据的特性带入到模型中来,以不断提高算法的准确度。

4.2 智能运维体系架构

一个通用化的业务智能运维的体系架构一般如下设计:

在上述的架构设计中:

(1)用户层:

面向业务的智能运维面向的用户,不光光是面向于传统的运维人员,此外,业务监控人员、业务部门主管、客服人员都可以在系统上找到自己所需要的数据、看到自己所想看到的东西;

(2)视图层:

提供WEB端丰富的可视化视图、大屏方式的业务状态视图、以及满足移动办公需求的手机端APP;

(3)服务层:

业务智能运维将提供给用户业务视图服务、拓扑服务、性能KPI服务、运维分析服务、告警服务、报表服务以及系统服务等,为用户提供丰富的监控、分析和告警视图功能。

(4)核心能力层:

智能运维系统的最关键部分,可以分为三个较大的模块“智能监控”、“智能分析”和“智能告警”。

智能监控:

实现针对各个层面的监控覆盖,包括用户体验的监控、应用性能的监控、中间件监控、基础设施的监控,只有收集了全面的数据,才有可能从数据中寻找关联,从关联中发现规律,丰富运维知识库。

智能分析:

智能分析为整个核心能力层中最核心的部分,该部分应该涵盖离线算法的训练模块和在线实时分析模块

离线算法训练模块要根据历史数据来以离线的方式训练和修正算法模型,然后生成的算法模型就类似于一个个的[if else]判断形成的规则组合,当最新的数据输入到算法模型,就可以实时的给出推测,用于预测、异常检测、故障定位等场景,这里面当然就需要机器学习和深度学习的算法来撑场面了。

在线实时分析模块要实现实时的算法分析,并不依赖于历史数据所训练出的离线模型,而是进行实时的计算,这里则需要大数据的实时计算技术了。

智能告警:

智能告警需要可以有效的遏制“告警风暴”,这个可是告警系统中必须面对的问题,那么需要提供较高效的分析算法,实现告警的自动归类、自动消除,那么归类中最合适的方法就是寻找告警之间的关系关系,将相近的告警合并为一条发送,避免告警风暴。

智能告警还可以动态调整告警短信/邮件发送的频率和周期,还有告警通知对象的智能配置,保证运维人员处理告警的专注性,不会被突如其来的海量告警所淹没。

注:部分内容参考互联网,如有侵权,请留言便于笔者及时处置。

文章来源:https://blog.csdn.net/bishenghua/article/details/135196594
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。