Nightingale 夜莺监控系统 - 告警篇(3)

发布时间:2024年01月13日

Nightingale

Author:rab

官方文档:https://flashcat.cloud/docs/content/flashcat-monitor/nightingale-v6/usage/alert/alert-rule/



前言

前面介绍了 Nightingale 的部署监控,现在我们来看看监控(采集)到的数据异常时如何通知到我们相关负责人,通知媒介有很多,比如:钉钉、邮件、飞书等,这里我们演示钉钉通知媒介如何配置。

一、配置

1.1 创建钉钉机器人

1、首先创建一个告警群(如 ops 群)

2、然后在群中添加机器人

选择【机器人】

image-20240113131518990

选择【添加机器人】

image-20240113131853625

选择【添加机器人】

image-20240113132007001

选择【自定义】

image-20240113132041305

选择【添加】

image-20240113132240100

  1. 设置【机器人名字】

  2. 【自定义关键词】:目前夜莺不支持其他的钉钉认证方式,只能选择关键字认证方式。

  3. 为啥使用“20”作为关键字呢?因为告警消息里一定会有日期,比如 2020-09-09 12:12:12 年份里必然带有“20”这个字符串,所以,正常的告警消息一定是可以通过校验认证的。

image-20240113132916932

创建完成后,保存好生存的 Webhook,因为在接下来的 N9e 告警配置时会用到。

image-20240113133205221

1.2 n9e 创建通知用户

这里需要添加一个普通用户,用于接收告警信息,下图中 11 步骤就是上图生成的 Webhook 地址。

image-20240113133638553

创建完了这个用户之后,未来发给这个用户的所有的告警,都会通过钉钉群里的机器人发到群里。

1.3 n9e 创建团队(组)

创建团队(组)的原因是:我们 n9e 的通知告警接收对象是团队(组),创建完团队后,将我们上面的 dingtalk 告警用户添加到该团队中,那每次 n9e 发出告警后,不仅团队的人能看得见告警信息,同时 dingtalk 用户也会将告警信息发送到钉钉机器人。

1、我们先来看看团队创建的格式

  • 树形

    image-20240113142745959

    创建后效果如下,有一个层次结构:

    image-20240113142612895

  • 普通

    image-20240113142922765

    image-20240113143046882

2、因此这里我们创建一个运维团队

image-20240113143212629

1.4 将通知用户添加团队

image-20240113143451545

image-20240113143522614

1.5 配置告警接收组

image-20240113143751192

选择我们刚刚创建的团队(组)

image-20240113144016990

至此,钉钉告警就配置完成了,那什么时候才会触发告警呢,我们继续看上图中的告警规则中相关配置及触发阈值。

image-20240113151833159

image-20240113151925867

但是注意上图中的告警规则是属于 cctv-web 这个业务组的,而且我们在告警规则中设置了仅在本业务组的团队(组)才生效,且告警接收组是 ops 团队,而 ops 团队又没在我的 cctv-web 业务组中,因此,我们需要将 ops 团队加入 cctv-web 业务组中。

image-20240113152613777

image-20240113152639290

二、验证

以上配置好后,就到我们钉钉中观察看是否有告警信息。

image-20240113160857247

—END

文章来源:https://blog.csdn.net/IT_ZRS/article/details/135571870
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。