引领变革：SRE 如何彻底改变 IT 运营

发布时间：2023年12月27日

站点可靠性工程是一种新的实践，在许多企业中越来越受欢迎。这项新活动也称为 SRE，重点关注监控、跟踪错误以及创建长期解决问题的系统和自动化。

如今，大多数公司都喜欢部署创可贴解决方案，这往往会给他们带来有缺陷的系统，当出现错误时很容易崩溃。SRE 实践通过重视主动监控问题和创建长期解决方案来解决这个问题。随着越来越多的公司采用 SRE，他们改变了 IT 部门的运营方式。

什么是 IT 运维？

信息技术运营（IT Ops）是监督信息技术基础设施和应用程序生命周期管理的学科。IT 运营专注于确保公司的 IT 基础设施健康、安全且可扩展。IT 运营是一个广泛的术语，涵盖各个部门，每个部门都为 IT 运营的整体成功做出了贡献。

SRE 与 DevOps

关于SRE 与 DevOps，将一个视为目标，将另一个视为实现该目标的手段会有所帮助。DevOps 旨在将开发和运营合二为一。站点可靠性工程使这一意图成为可能。所以，从鸟瞰的角度来看，DevOps 是目标，SRE 是方法。DevOps 讨论了需要做什么来协调开发和运营的目标和活动。SRE 回答了“我们如何实现这一目标？”的问题。

以下是 SRE 对企业运营产生积极影响的一些方式。

1. 软件优先的方法

任何维护 SRE 团队的公司都会经常听到他们谈论使用软件实现流程自动化。站点可靠性工程的核心目标是实现自动化流程，一劳永逸地解决问题。关于 SRE 的大多数误解是，它的目标是发现漏洞并修补它们。但 SRE 更多的是创建一个在发生泄漏时自动更换管道的系统。

SRE 的大部分内容是开发自动化事件管理的软件和系统。这种自动化优先的思维方式非常重视 IT 领域的系统构建者，并教导整个公司在我们所做的一切事情中适应同一流派的思想。当您可以将手动任务自动化时，为什么还要坚持执行手动任务呢？

2. 关注 SLO 和错误预算

SRE 团队的首要任务之一是确定服务级别目标或最低可用性目标。SLO 是团队在系统或软件对用户的可用性方面必须满足的最低要求。他们接下来要做的就是设置错误预算，这表明系统允许的错误幅度。

这意味着 SRE 在提供卓越的客户体验方面非常重视承诺。即使 SRE 团队进行错误跟踪的方式也应该有用户体验的方法。这与许多其他 SRE 实践一起，有助于弥合人们如何使用系统与开发人员如何设计系统以满足最低卓越标准之间的差距。

3. 主动稳定性保障

成为一名优秀的站点可靠性工程师的关键在于积极主动的能力。鉴于93% 的 SRE将其工作与“监控和警报”相关联，因此关键的问题解决技能是必须的。凭借 IT 运营方面的可用技能，它会影响整个部门甚至整个公司，从而推动整个以解决方案为导向的文化。积极主动的文化为系统和运营带来更大的稳定性保证。

4. 开发和运营协作

为了使站点可靠性管理有效，必须进行协作和协调。这可能就是 81% 的 SRE 大部分工作在办公室进行的原因。尽管多年来 SRE 在家工作的情况有所增加，但重点是 SRE 实践以协作为中心。

SRE 文化提倡使用服务级别协议 (SLA) 和指标来调整业务目标并进行监控，以帮助我们了解性能和错误管理。SRE 团队的主要工作是发现系统中的错误、找到根本问题并解决它们。通过与所有参与者和部门合作维持一个健康的系统，SRE 或 SRE 团队鼓励携手合作，并以某种方式“迫使”我们团结起来解决系统问题。

5. 商品化效率和 SRE 解决方案

SRE 角色和职责可能相当广泛，因此成本高昂，尤其是对于小型组织而言。例如，拥有事件管理系统的成本可能是天文数字，如果您是 Facebook 或 Google 这样的公司，这可能是合理的。但如果您是一家科技初创公司或中小型科技公司怎么办？

为了满足将更有效的实践商品化的需求，多年来事件管理系统市场不断增长。

采用 SRE 模型

技术正在永远改变企业的运营方式，企业开展的许多活动开始变得更加数字化。SRE 允许来自各种实践（无论是技术相关的还是非技术相关的）的所有人都可以采用软件开发方法来解决所有问题。当团队将 SRE 成熟度模型、SRE 原则、实践和技能混合在一起部署时，它彻底改变了我们处理问题和提出解决方案的方式。

以下是团队在公司中采用 SRE 模型或方法的方式。

定义框架
部署 SRE 模型的第一步是定义框架。确定您的部门或团队可能采用的参数、工具和文化，并决定使用这些已部署的系统。
雇用熟练的工程师
关于 SRE 团队是否需要擅长运维的开发人员或擅长开发的运维人员存在争议。虽然是先有鸡还是先有蛋的玩笑，但重要的是 SRE 团队必须有既了解游戏工程又了解系统应用和运营方面的人员。
实施工具和技术
SRE 团队使用所有可用的工具，包括 SRE 的开源项目，为公司的系统带来更高的稳定性。公司还需要建立事件管理系统。借助良好的 SRE 和事件管理工具，较小的公司甚至可以在需要时让随叫随到或兼职的 SRE 参与处理事件，从而显着改善工程交付、加快恢复速度并减少 SLO 违规。
更新流程
随着问题适应的方式，解决方案制定者也需要适应。SRE 建立在适应性原则之上——能够随着时代的变化而转变、调整和改变。正如一句老话所说，这个世界上唯一不变的就是变化。在我们生活的这个世界的不确定性、模糊性和易变性中，可能出错的事情很可能会出错（正如墨菲定律所述），团队或组织的适应能力非常有帮助。帮助 SRE 团队更轻松地进行转型的一方面是拥有正确的 IT 管理软件工具来更好地监控、分析和实施解决方案，以修复操作级别的事件、错误和问题。配备 SRE 或 SRE 团队可以更轻松地为常见问题创建解决方案。
改变文化以支持模型
SRE 的核心不是系统或软件，而是文化。这种文化强调三个不容谈判的因素：主动性、以解决方案为中心和用户体验。就这一点而言，致力于 DevOps 和 SRE 的部门以及整个公司都应该支持该模型。

结论

为了在不断变化的环境中保持竞争力，鼓励组织探索和实施 SRE 模型。采用 SRE 模型不仅是一种技术转变，也是一种文化转变，强调主动性、解决方案重点和用户体验。

文章来源:https://blog.csdn.net/EasyOps_DevOps/article/details/135251981
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！