告警是可观测性的重要组成部分,与监控和日志密切相关。KubeSphere 中的告警系统与其主动式故障通知 (Proactive Failure Notification) 系统相结合,使用户可以基于告警策略了解感兴趣的活动。当达到某个指标的预定义阈值时,会向预先配置的收件人发出告警。因此,您需要预先配置通知方式,包括邮件、Slack、钉钉、企业微信和 Webhook。有了功能强大的告警和通知系统,您就可以迅速发现并提前解决潜在问题,避免您的业务受影响。
? 基于Prometheus生态
? 多租户隔离
? 多维度监控
? 全面丰富的指标
? 灵活多样的展现方式
该工作负载包括3个容器组
告警策略入口
节点(cpu/内存/磁盘/网络/容器组利用率)
等待1分钟触发报警:
通过已有指标配合PromQL自定义报警策略,Querying basics | Prometheus
# 不可用副本 / 期望副本 > 0.3
kube_deployment_status_replicas_unavailable / kube_deployment_spec_replicas > 0.3
https://github.com/kubesphere/monitoring-dashboard/tree/master/config/crd/bases
kubectl api-resources | grep dashboard
转化过程如下:
https://github.com/kubesphere/monitoring-dashboard#converter-tool