SRE - 监控建设

发布时间:2023年12月24日

监控?

随着信息技术的迅速发展及其在商业和工业环境中的广泛应用,系统的可靠性成为了组织的生存之本。Site Reliability Engineering(SRE)作为一种实践的结合体,广泛地用于确保和提升软件系统的可靠性。其中,它的一个重要组成部分是制定和监控服务的关键性能指标(Service Level Indicators, SLIs)、服务水平目标(Service Level Objectives, SLOs)以及服务等级协议(Service Level Agreements, SLAs)。本文旨在深入介绍监控文档中的各要素,探讨监控工具的应用,以及阐述监控建设的方法和最佳实践,以实现高效的服务运维和故障应急。

目录

1     SRE的监控体系... 2

1.1         SLI(Service Level Indicator)... 3

1.2         SLO(Service Level Objective)... 3

1.3         SLA(Service Level Agreement)... 3

2     监控?具使?... 4

2.1         Prometheus. 4

2.2         BPC. 4

2.3         RMS. 4

2.4         业务监控平台... 5

2.5         听云... 6

2.6         Zabbix. 6

2.7         F5. 7

2.8         EM平台... 7

2.9         ELK大数据日志... 7

3     监控建设... 8

3.1         监控分层... 8

3.1.1              业务层.... 8

3.1.2              链路层.... 8

3.1.3              应?监控.... 8

3.1.4              系统监控.... 9

3.1.5              监控可视化.... 9

3.1.6              告警管理.... 10

3.2         监控指标套餐... 11

3.2.1              业务指标套餐.... 11

3.2.2              环境(可?性)指标套餐.... 12

文章来源:https://blog.csdn.net/qq_34068440/article/details/135061204
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。