业务架构:客户端 → 防火墙 → 负载均衡(四层、七层) → web缓存/应用 → 业务逻辑(动态应用) → 数据缓存 → 数据持久层
运维架构:运维客户端 → 跳板机/堡垒机(jumpserver/VNC) → 监控系统、日志系统、存储系统、自动化运维平台、CI/CD(持续集成/持续部署平台)
Zabbix 优点:
1、监控模版可以包含多个指标,在不涉及自定义采集脚本等其他方式的情况下,使用SNMP、Zabbix Agent 的情况下可以做到开箱即用;
2、指标和触发器(Zabbix的告警规则叫触发器)的关联交互挺好用;
3、宏和宏变量的使用可以大大的提高告警的便捷性,基本可以做到每个label 不同的阈值;
4、Zabbix 的指标采集挺丰富的,包括采集间隔,是否要一直采集还是每天固定时间段来采集;
5、Zabbix 的管理页面,这个不愧是企业级软件,Zabbix 很大一部分的优势是靠它来体现的。
zabbix缺点:
1、Zabbix 架构原生是单点,没有集群方案,官方推荐的是使用keepalived 来进行3个点的负载均衡,这个方案在现在来说还是有很大的优化空间的。
2、Zabbix 的数据存储使用关系型数据库,在 Zabbix 刚发布的时候,这个没的选择,但放在现在这是个很大的问题,当指标数量增加以后,数据的存储空间、查询时间都变成了一个恐怖的事情。当前使用了6TiB的空间来存储了每帧80万条数据,采集间隔一分钟,详细数据1个月,历史数据大概1年半的数据,Prometheus 存储比这个节省多了。当然zabbix 也可以支持更大的数据收集规模,只是不知道资源会按什么比例增长。
3、升级复杂,体验了4.4.0升级到4.4.10以后,升级太麻烦,使用Zabbix 你的团队最好配置一个DBA 来处理各种问题。
4、Zabbix 和 Grafana 的结合不太好,语句写起来挺生硬的,也能用,但是不如Prometheus 灵活。
对于prometheus 这个月我也做了例行升级,大概花了一个小时左右,我升级完了十多个实例,配套的Thanos 和存储数据的Minio。和Zabbix 相比,这太让人舒服了。
Prometheus 的优点:
1、结构简单,但是可以水平扩展,通过和thanos 结合可以做到无缝的水平扩展。不喜欢thanos 也可以使用自带的联邦功能进行扩展,Prometheus 的思想就是:我尽量简单但是好用,剩下的功能尽管放给其他人做
2、采用时序数据库,大大的节省了存储空间,并且提升了查询效率。我使用3TiB 的空间存储了每帧300万条数据,30秒采集一次,大约有120万条数据是15秒采集一次,详细数据存2个月,5分钟降准数据存半年,一小时降准数据存一年,而且我还不需要DBA 参与。
3、采集配置简单,简单配置以后就可以收取丰富的指标,不用自己一个指标一个指标的添加。
4、原生支持收集很多服务暴露的监控数据,Zabbix 很难收集应用自身提供的监控数据。
Prometheus 的缺点:
当前告警规则无法快捷的支持每个label 一个阈值,要么统一阈值,要么一个label 一条规则,量大了以后真的不好管理。大家如果这方面有什么好的办法还请指导我一下。
其他感觉和zabbix 比起来没啥缺点了。
另外有一个不同点就是,当采集内容较多的时候会出现一个机器上有多个 Agent 的问题。对于这个方面来说,Zabbix 只有一个 Agent ,但是很多内容需要自己编写采集脚本,Agent 还是比自己编写脚本的可靠性更高一些。另外对于单节点多 Agent 来说,Prometheus 也有对应的解决方案。
在使用Zabbix 和 Prometheus 的过程中,曾经将 Zabbix 和 Prometheus 放在各种场景下进行过使用,比如单个集群、多个集群、超级集群、企业业务环境等等场景。
我们先来看看集群环境。
对于单个中小规模的集群(500或者 1000 节点以下)来说,使用Zabbix 和 Prometheus 没有什么差别,无论使用哪种工具,做好规划和设计,使用起来基本没有问题,单机的资源使用、数据库的压力、场景的复杂度,都不是太大的问题。随便使用就好。
对于多集群来说,我们需要考虑 Master 节点的资源使用情况、数据库的压力承载情况、集群扩展的方便性。对于 Zabbix 来说,当节点数量直线上升的时候,Master 的压力会一直增大,对于单点 Master 的配置要求越来越大,当数量达到一定规模以后,单点就无法支撑这个规模的系统,然而官方也没有提出很好的集群方案。另外当节点规模增大以后,数据库的压力会变大,监控数据的查询会变的很慢,数据库会变成一个集群来解决遇到的问题,硬件资源的成本会直线上升。对于集群扩展来说,Zabbix 可以基于自动注册和 Proxy 来实现,但是数据是采取 Agent 到 Server Push 回来的,当你想要摘除一个被监控集群的时候操作很繁琐。
对于Prometheus 来说,在多集群的时候,可以每个集群使用一个 Prometheus ,通过 Thanos 来进行汇总,水平扩展特别方便,也不会有单点压力很大的情况,而且可以通过 Label 来区分不同的集群,单点Server 承载节点的能力比Zabbix 强很多。而且 Prometheus 使用时序数据库来存储监控数据,可以用很少的硬件资源提供更强的查询能力。Prometheus 使用 从 Server 到 Agent 拉取的方式获取数据,可以在 Server 端很轻易的操作采集那些节点,放弃某些节点的采集。
对于单集群超过 5000 节点的超级集群,建议直接使用 Prometheus ,可以不用 Zabbix 了,性能差太多。在不考虑冗余的情况下,Prometheus 单点就可以支持 5000 节点存储 1 个月的监控数据,Zabbix 使用同配置的机器至少要 3~4 台机器才能实现相同的效果。而且 Prometheus 相较 Zabbix 维护简单,使用方便。
对于企业的业务环境来说,超过 2000 台节点、业务服务数量大于 1000 个的时候建议直接上 Prometheus 。这个时候是需要一个完整的监控观测系统,需要和 Grafana、Kafka、Redis、MySQL等等中间件和各种系统进行结合、直接获取服务自身暴露的监控指标,在这种场景下,Prometheus 是最适合的。Zabbix 和其他中间件的结合较差,完全依赖自定义脚本来实现,没有依托社区的力量。
作为一个运维,需要会使用监控系统查看服务器性能、应用服务和网站流量指标等,利用监控系统的数据去了解网站上线发布的结果和健康状态。
zabbix是一个基于web界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
zabbix能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。
zabbix由两个部分组成,zabbix、server与可选组件zabbix agent。通过C/S模式采集数据,通过B/S模式在web端展示和配置。
zabbix server可以用zabbix agent,SNMP(简单网络管理协议)协议,端口监视等方法提供对远程服务器/网络状态的监视,数据手机等功能,他可以运行在Linux等平台上。
zabbix agent需要安装在被监视的目标服务器上,他主要完成对硬件信息或者操作系统有关的内存,CPU等信息的收集。
●通过一个友好的界面进行浏览整个网站所有的服务器状态 ●可以在 Web 前端方便的查看监控数据 ●可以回溯寻找事故发生时系统的问题和报警情况
zabbix agent安装在被监控的主机上,zabbix agent负责定期收集客户端本地各项数据,并发送至zabbix server端,zabbix server收到数据后,将数据存储到数据库中,用户基于zabbix we可以看到数据在前端展现图像。当zabbix监控某个具体项目,该项目会设置一个触发器阈值,当被监控的指标超过该触发器设定的阈值,会进行一些必要的动作,动作包括:发送信息(邮件、微信、短信)、发送命令(shell命令、reboot、restart、install等)
zabbix agent会定期采集被监控主机的指标数据并发送给zabbix server,zabbix server接受数据后会存储到zabbix database里,管理员
1)zabbix server高可用防止硬件故障或计划维护期的停机:
原生选择加入HA群集配置
定义一个或多个备用节点
实时监控zabbix server群集节点的状态
不需要外部工具即可将zabbix server配置为HA群模式
2)zabbix 6.0 LTS新增Kubernetes监控功能,可以再Kubernetes系统从多个维度采集指标
Kubernetes节点和pods的自动发现和健康
无代理方式采集Kubernetes pods和节点的信息
获取Kubernetes节点主机高水平信息
zabbix 服务端守护进程,时zabbix软件的核心组件,zabbix agent向其报告可用性、系统完整性信息和统计信息。
Zabbix Server 也是存储所有配置信息、统计信息和操作信息的核心存储库。
Zabbix Server 也是 Zabbix 监控系统的告警中心。在监控的系统中出现任何异常,将发出通知给管理员。
Zabbix 的所有配置信息都存储在 Server 和 Web 前端进行交互的数据库中。例如,当你通过 Web 前端(或者API)新增一个监控项时, 它会被添加到数据库的监控项表里。然后,Zabbix server 以每分钟一次的频率查询监控项表中的有效项,接着将它存储在 Zabbix server 中的缓存里。 这就是为什么 Zabbix 前端所做的任何更改需要花费两分钟左右才能显示在最新的数据段的原因。
所有配置信息以及 Zabbix 采集到的数据都被持久存储在数据库中。 可以支持 MySQL、PostgreSQL、Oracle、DB2、TimescaleDB 等多种数据库。
Web 界面是 Zabbix Server 的一部分,用于实现展示和配置的界面。通常(但不一定)和 Zabbix server 运行在同一台物理机器上。 基于 Apache/Nginx + PHP 实现,早期只支持 LAMP 架构,从 Zabbix5.0 开始支持 LNMP 。
客户端守护进程,部署在被监控目标上,用于主动监控本地资源和应用程序,并将收集的数据发送给 Zabbix Server。从 Zabbix5.0 开始支技 Zabbix Agent2 。
zabbix 分布式代理守护进程,可以代替 Zabbix Server 采集性能和可用性数据。Zabbix Proxy 在 Zabbix 的部署是可选部分。 Zabbix Proxy 的部署可以很好的分担单个 Zabbix Server 的负载。 通常监控大于 500 台主机时使用,需要进行分布式监控架构部署。
Zabbix 要监控 Tomcat 服务或其它 JAVA 程序(比例 Elasticsearch、ZooKeeper),需要使用 Java Gateway 做为代理,才能从 JAVA 程序中获取数据。
zabbix server:zabbix服务端进程,用于配置和管理zabbix应用程序,也是监控系统的告警中心(需要配置监控项告警触发阈值和发送告警)
zabbix database:持久化存储配置信息和监控指标数据(支持mysql、oracle、gpdb、tsdb等)
zabbix web:用于zabbix服务端配置界面和监控数据的UI界面展示(支持LAMP/LNMP)
zabbix agent:部署在被监控的主机上,采集监控指标是数据,并发送给zabbix server(数据采集支持主动模式和被动模式)
主动模式:zabbix agent 主动向zabbix server请求监控项列表,并主动将监控项需要的数据发送给zabbix server
被动模式:zabbix agent 被动接受zabbix server 请求的监控项列表,zabbix发送监控项需要的数据发送给zabbix server
zabbix proxy:zabbix代理端进程,部署在zabbix server与zabbix agent之间,代替zabbix server接受zabbix agent发送的监控数据并存储在本地,汇总后在转发给zabbix server,从而可以分担zabbix server的集中式负载压力。
zabbix java gateway:用于获取通过JMX从java应用暴露的的端口采集监控数据
zabbix在进行监控时,zabbix客户端要安装在被监控设备上,负责定期收集数据,并将其发送给zabbix服务端,zabbix服务端要安装在监控设备上,其将zabbix客户端发送的数据存储的数据库中,zabbix web根据数据在前端进行展示和绘图。
zabbix客户端主动向zabbix server请求监控项列表,并主动将监控项内需要的数据提交给zabbix server。
zabbix server向agent请求获取监控项数据,zabbix agent返回数据。
由此可以看出zabbix的主动和被动模式失意zabbix客户端为基准的。
1)先明确获取监控指标数据的命令或者脚本
2)在被监控主机配置文件目录中(etc/zabbix/zabbix_agent2.d/)创建以.conf为后缀的监控项配置文件,在文件里自定义监控指标数据的键值。
3)在zabbix服务端web管理页面中依次添加 模版 - 监控项 - 触发器 - 图形
4)将监控模版与被监控主机相关联
1)在zabbix服务端web管理页面【管理】 - 【报警媒介类型】中设置媒介类型和内容模版
2)在【User settings】-【Profile】-【报警媒介】中设置 类型 收件人 启动时间 严重级别
3)在【配置】-【动作】-【Trigger actions】中创建动作,设置 动作条件 操作内容
4)测试触发后是否会发邮件
●系统:CentOS 7 不支持 yum 方式安装 Zabbix 6.0 服务端
●安装方式:Zabbix 服务端采用编译安装的方式,zabbix 客户端采用 yum 安装的方式
cat > /etc/yum.repos.d/nginx.repo << 'EOF' [nginx] name=nginx repo baseurl=http://nginx.org/packages/centos/$releasever/$basearch/ gpgcheck=1 enabled=1 gpgkey=https://nginx.org/keys/nginx_signing.key module_hotfixes=true EOF ? yum install -y nginx
curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo yum install -y epel-release rpm -Uvh https://mirror.webtatic.com/yum/el7/webtatic-release.rpm yum -y install php72w php72w-cli php72w-common php72w-devel php72w-embedded php72w-gd php72w-mbstring php72w-pdo php72w-xml php72w-fpm php72w-mysqlnd php72w-opcache php72w-ldap php72w-bcmath
vim /etc/nginx/conf.d/dsb.conf server { listen 80; server_name dsb.wx.com; root /var/www/zbx; ? location / { ? index index.php; } ? location ~ \.php$ { ? fastcgi_pass 127.0.0.1:9000; ? fastcgi_index index.php; ? fastcgi_param SCRIPT_FILENAME /var/www/dsb$fastcgi_script_name; ? include fastcgi_params; } }
vim /etc/php-fpm.d/www.conf user = nginx ? 8 group = nginx ? 10 ? vim /etc/php.ini max_execution_time = 300 # 368行 max_input_time = 600 # 378行 post_max_size = 80M # 656行 date.timezone = Asia/Shanghai # 877行
mkdir -p /var/www/zbx ? vim /var/www/dsb/index.php <?php phpinfo(); ?> ? #启动服务 systemctl enable --now nginx php-fpm
修改 C:\Windows\System32\drivers\etc\hosts 192.168.111.11 dsb.wx.com ? 浏览器访问:http://dsb.wx.com/index.php
mariadb是mysql数据库的分支,采用GPL授权许可 MariaDB的目的是完全兼容MySQL
cat > /etc/yum.repos.d/mariadb.repo << EOF [mariadb] name = MariaDB baseurl = http://mirrors.aliyun.com/mariadb/yum/10.5/centos7-amd64/ gpgkey = http://mirrors.aliyun.com/mariadb/yum/RPM-GPG-KEY-MariaDB gpgcheck = 1 enabled=1 EOF ? yum install -y mariadb-server mariadb ? systemctl enable --now mariadb
mysql_secure_installation 分别输入 回车 -> n -> Y (设置root密码,如abc123) -> 后面一路 Y ? mysql -u root -pabc123
CREATE DATABASE zabbix character set utf8 collate utf8_bin; GRANT all ON zabbix.* TO 'zabbix'@'localhost' IDENTIFIED BY 'zabbix'; GRANT all ON zabbix.* TO 'zabbix'@'%' IDENTIFIED BY 'zabbix'; flush privileges; ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? #刷新
cd data tar xf zabbix-6.0.13.tar.gz ? ls /opt/zabbix-6.0.13/database/mysql data.sql double.sql history_pk_prepare.sql images.sql Makefile.am Makefile.in schema.sql
cd /opt/zabbix-6.0.13/database/mysql mysql -uroot -pabc123 zabbix < schema.sql mysql -uroot -pabc123 zabbix < images.sql mysql -uroot -pabc123 zabbix < data.sql mysql -uroot -pabc123 zabbix < double.sql mysql -uroot -pabc123 zabbix < history_pk_prepare.sql
yum install -y mysql-devel pcre-devel openssl-devel zlib-devel libxml2-devel net-snmp-devel net-snmp libssh2-devel OpenIPMI-devel libevent-devel openldap-devel libcurl-devel fping gcc gcc-c++ make ? useradd -s /sbin/nologin -M zabbix
./configure \ --sysconfdir=/etc/zabbix/ \ --enable-server \ --with-mysql \ --with-net-snmp \ --with-libxml2 \ --with-ssh2 \ --with-openipmi \ --with-zlib \ --with-libpthread \ --with-libevent \ --with-openssl \ --with-ldap \ --with-libcurl \ --with-libpcre ? make install
zabbix_server --version zabbix_server (Zabbix) 6.0.13 ? vim /etc/zabbix/zabbix_server.conf ...... LogFile=/var/log/zabbix_server.log # 38行,指定 zabbix 日志路径 DBPassword=zabbix # 123行,指定 zabbix 数据库的密码
cat > /usr/lib/systemd/system/zabbix-server.service << EOF [Unit] Description=Zabbix Server with MySQL DB After=syslog.target network.target mysqld.service ? [Service] Type=simple ExecStart=/usr/local/sbin/zabbix_server -f User=zabbix [Install] WantedBy=multi-user.target EOF ? touch /var/log/zabbix_server.log chown zabbix.zabbix /var/log/zabbix_server.log systemctl daemon-reload systemctl enable --now zabbix-server netstat -lntp | grep 10051 #zabbix_server 默认监听 10051 端口
cp -r /opt/zabbix-6.0.13/ui/* /var/www/zbx ? chown -R nginx.nginx /var/www/zbx
浏览器访问:http://zbx.kgc.com/ 【Default language】选择 Chinese(zh_CN),点击下一步 【密码】输入 zabbix,点击下一步 【Zabbix主机名称】输入 Zabbix-监控;【默认时区】选择 Asia/Shanghai,点击下一步 ? 安装完成后,默认的登录账号和密码为:Admin/zabbix
rpm -ivh https://repo.zabbix.com/zabbix/6.0/rhel/7/x86_64/zabbix-release-6.0-4.el7.noarch.rpm sed -i 's#https://repo.zabbix.com#https://mirrors.aliyun.com/zabbix#' /etc/yum.repos.d/zabbix.repo ? #zabbix 5.0 版本开始采用 golang 语言开发的新版本客户端 agent2 yum install -y zabbix-agent2 ? systemctl enable --now zabbix-agent2 ? netstat -lntp | grep 10050 #客户端 zabbix_agent2 默认监听 10050 端口
yum install -y wqy-microhei-fonts ? \cp -f /usr/share/fonts/wqy-microhei/wqy-microhei.ttc /var/www/dsb/assets/fonts/DejaVuSans.ttf
yum install -y ntpdate ntpdate -u ntp.aliyun.com
cat > /etc/hosts << EOF 192.168.111.11 localhost 192.168.111.22 localhost EOF
rpm -ivh https://repo.zabbix.com/zabbix/6.0/rhel/7/x86_64/zabbix-release-6.0-4.el7.noarch.rpm sed -i 's#https://repo.zabbix.com#https://mirrors.aliyun.com/zabbix#' /etc/yum.repos.d/zabbix.repo ? yum install -y zabbix-agent2
vim /etc/zabbix/zabbix_agent2.conf ...... Server=192.168.111.55 #80行,指定 zabbix 服务端的 IP 地址 ServerActive=192.168.111.55 #133行,指定 zabbix 服务端的 IP 地址 Hostname=zbx-agent01 #144行,指定当前 zabbix 客户端的主机名
systemctl start zabbix-agent2 systemctl enable zabbix-agent2 ? netstat -natp | grep zabbix tcp6 ? ? ? 0 ? ? 0 :::10050 ? ? ? ? ? ? ? :::* ? ? ? ? ? ? ? ? ? LISTEN ? ? 43654/zabbix_agent2
yum install -y zabbix-get #安装 zabbix 主动获取数据的命令 ? zabbix_get -s '192.168.111.22' -p 10050 -k 'agent.ping' 1 点击模版 创建之后开始检测加入的键 zabbix_get -s '192.168.111.22' -p 10050 -k 'agent.hostname' localhost
点击左边菜单栏【配置】中的【主机】,点击【创建主机】 【主机名称】输入 zbx-agent01 【可见的名称】输入 zbx-agent01-192.168.80.30 【模板】搜索 Linux ,选择 Linux by Zabbix agent 【群组】选择 Linux servers 【Interfaces】点击添加 客户端,【IP地址】输入 192.168.80.30
变绿为成功需要等待一段时间
案列:自定义监控客户端服务器登录的人数 需求:限制登录人数不超过 3 个,超过 3 个就发出报警信息
明确需要执行的 linux 命令 who | wc -l ? 创建 zabbix 的监控项配置文件,用于自定义 key vim /etc/zabbix/zabbix_agent2.conf #可以将自定义的监控项配置文件创建在 zabbix_agent2.d 目录中 281 Include=/etc/zabbix/zabbix_agent2.d/*.conf #自定义监控项的格式如下 321 # Format: UserParameter=<key>,<shell command> ? cd /etc/zabbix/zabbix_agent2.d/ ? vim UserParameter_login.conf UserParameter=login.user,who|wc -l ? systemctl restart zabbix-agent2
1.创建模板 点击左边菜单栏【配置】中的【模板】,点击【创建模板】 【模板名称】设置成 this is dsb 【可见的名称】设置成 this is dsb 【群组】选择 Template 【描述】可自定义 点击 【添加】,此时就可在【名称】中搜索到 this is dsb 了
点击 this is dsb模板进入 点击上方菜单栏【监控项】,点击【创建监控项】 【名称】设置成 kan kan shi shei 【键值】设置成 login.user #键值必须要与自定义的监控项配置文件中设置的保持一致 【更新间隔】设置成 10s 【历史数据保留时长】Storage period 30d #保留时间可自定义设置 点击 【添加】
点击上方菜单栏【触发器】,点击【创建触发器】 【名称】设置成 Number of login users is greater than 3 【严重性】设置成 一般严重 #根据严重程度可自定义设置 【表达式】点击添加,【监控项】点击选择 Number of login users,【功能】选择 last(),【结果】选择 > 3,点击 【插入】 点击 【添加】
点击上方菜单栏【图形】,点击【创建图形】 【名称】设置成 Number of login users 【宽】、【高】可直接采用默认值 【监控项】点击添加勾选相关监控项 Number of login users,【功能】选择 最大,其它可保持默认值 点击 【添加】
点击左边菜单栏【配置】中的【主机】,点击你要关联的主机 【模板】搜索 this,选择 this is dsb,点击【更新】 ? 此时就点击【监测】中的【主机】,点击你关联主机的【图形】,即可查看到相关的监控项指标
点击左边菜单栏【管理】中的【报警媒介类型】,点击【创建媒体类型】 【名称】设置成 qq_Email 【SMTP服务器】设置成 smtp.qq.com 【SMTP服务器端口】设置成 25 【SMTP HELO】设置成 qq.com 【SMTP电邮】设置成 自己的邮箱地址,例如 qwe4546456@qq.com 【认证】选择 用户名和密码 【用户名称】设置成 自己的邮箱地址,例如 qwe4546456@qq.com 【密码】可登录QQ邮箱页面,点击【设置】-->【账户】中的【生成授权码】,通过短信获取授权码 【描述】可自定义 点击上方菜单栏【Message templates】,点击【添加】,【Message type】选择 问题,点击【更新】 点击 【添加】,并测试功能
点击左边菜单栏【User settings】-->【Profile】-->【报警媒介】,点击【添加】 【类型】选择 qq_Email 【收件人】设置成 qwe4546456@wo.cn 【当启用时】设置成 1-7,00:00-24:00 【如果存在严重性则使用】勾选需要的严重性 点击 【添加】 再点击 【更新】 ? 点击左边菜单栏【配置】->【动作】->【Trigger actions】 选择相对应的动作名称点击进入,点击 【添加】 【类型】选择 触发器,【操作者】选择 等于,【触发器】点击选择 Nunber of login users is greater than 3 点击【添加】 勾选 【已启动】 点击 【更新】