一文看懂Prometheus告警原理及过程

global:
  # How frequently to scrape targets by default.
  scrape_interval: 30s
  # How long until a scrape request times out.
  scrape_timeout: 10s
  # How frequently to evaluate rules.
  evaluation_interval: 1m
alerting:
  alertmanagers:
  - static_configs:
    - targets:
      - 172.0.20.1:8088

rule_files:
  - ./rules/*.yml

Prometheus以scrape_interval（默认为1m）规则周期，从监控目标上收集信息。其中scrape_interval可以基于全局或基于单个metric定义；然后将监控信息持久存储在其本地存储上。

Prometheus以evaluation_interval（默认为1m）另一个独立的规则周期，对告警规则做定期计算。其中evaluation_interval只有全局值；然后更新告警状态。

4. 告警过程

1、告警流程图

流程描述：

1.Prometheus以5s（scrape_interval）一个采集周期采集状态；

2.根据采集到状态按照10s（evaluation_interval）一个计算周期，计算表达式；

3.表达式为真，告警状态切换到pending；

4.下个计算周期，表达式仍为真，且符合for持续10s，告警状态变更为active，并将告警从Prometheus发送给alert-manager；

5.下个计算周期，表达式仍为真，且符合for持续10s，持续发送告警给alert-manager。

5. 告警解除

5.1 对startsAt和endsAt的处理

1、两者都存在：不做处理

2、两者都未指定：startsAt指定为当前时间，endsAt为当前时间加上告警持续时间，默认为5分钟

3、只指定startsAt：endsAt指定为当前时间加上默认的告警持续时间

4、只指定endsAt：将startsAt设置为endsAt

即：如果 endsAt 没有提供，则自动等于 startsAt + resolve_timeout(默认 5m)

AlertManager一般以当前时间和告警实例的endsAt字段进行比较用以判断告警的状态：

* 若当前时间位于endsAt之前，则表示告警仍然处于触发状态（firing）

* 若当前时间位于endsAt之后，则表示告警已经消除（resolved）

Prometheus 需要持续地将 Firing 告警发送给 Alertmanager，遇到以下一种情况，Alertmanager 会认为告警已经解决，发送一个 resolved：

* Prometheus 发送了 Inactive 的消息给 Alertmanager，即 endsAt=当前时间

* Prometheus 在上一次消息的 endsAt 之前，一直没有发送任何消息给 Alertmanager

当告警没有再此触发时，多久后发送恢复的时间由什么因素决定：告警的endAt来决定。

告警的endAt默认情况下prometheus会设置为以下值来决定：

ts + max([check_interval], [resend_delay]) * 4

resendDelay，是程序启动参数 --rules.alert.resend-delay 规定的，默认 1m

interval，是我们配置的采集间隔

如果收到的告警里没有设置endAt，那么alertmanager设置endAt为以下值来决定：

now + resolve_timeout

即：对活跃告警的默认恢复时间决定为：如果发送方（prometheus等）指定了endAt，则以发送方为准，否则alertmanger统一设置为now + resolve_timeout，即一条告警等待了resolve_timeout还没收到新的告警内容，则视为恢复

5.2 Prometheus告警解除后持续多久重复推送告警解除通知？？

模拟告警解除过程，配置10分钟评估等待时长，

prometheus实际告警解除时间：2023-12-26 16:44:23.995

告警记录的告警解除时间：2023-12-26 16:54:49

prometheus停止推送告警解除通知：2023-12-26 16:58:23.995

结论：Prometheus告警解除后持续12分钟重复推送告警解除通知（间隔2分钟推送一次）

文章来源:https://blog.csdn.net/m0_58476313/article/details/135336755
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！