转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。
在《线上监控怎么做?》和《做好监控告警的关键技巧》两篇文章中我们探讨了做好监控的一些陷阱和重要技巧。
本文则主要梳理了从不同维度做监控时,值得重点关注的监控要素/指标。
如下表:
监控维度 | 重点关注监控要素/指标 |
---|---|
业务监控 | 根据业务类型,列出业务关键KPI,从业务KPI寻找业务监控的重点。并将业务KPI与技术指标绑定,做好业务监控。 如客户满意度、客户成本、客户流失率等 |
前端监控 | 监控方式: 1. 真实用户监控:使用实际的用户流量作为监控数据,是前端监控工作的核心 2. 合成监控结合:创建假请求来生成数据做监控 指标: ? ??PV/UV/用户在每个页面的停留时间 ? ? 页面加载时间 ? ? 响应时间 ? ? 错误指标(js错误、promise错误、资源加载错误、接口错误、白屏等) |
应用程序监控 | 1. CI/CD监控:持续构建时间、构建部署频率、测试通过率等指标 2. 端点监控(如:/health端点):内存使用、HTTP请求统计、外部资源指标等指标 |
SSL证书监控 | 证书到期时间 |
标准服务器系统监控 | 1. CPU使用率 2. 内存使用率 3. 网络吞吐率 4. 磁盘使用率、磁盘IOPS 5. 负载(5min/15min) |
web服务器监控 | 1. 每秒请求数(req/sec) 2. HTTP状态码 3. 请求数(请求数≠连接数) 4. 请求时间 |
数据库服务器监控 | 1.?CPU 2. 连接数(最大连接数、已创建的总连接数、已连接的连接数、当前缓存的连接数、当前活跃的连接数) 3. 每秒查询数(qps)4. 慢查询 5. 主从状态、复制延迟 6. IOPS(Input/Output Per Second) |
负载均衡器监控 | 1. 后端健康检查:端口检查、http健康检查 2. 每秒请求数、请求/响应时间 3. 前端/后端的HTTP响应码 4. 客户端到LB/LB到后端的:连接数、流量、带宽 |
消息队列监控 | 1. 队列长度 2. 消费率 3. 异常率 4. 消息积压 |
缓存监控 | 1. 缓存命中率 2. 逐出项的数量 3.?连接数指标 |
DNS监控 | 1. 区域传输数 2. 每秒查询数 3.?解析超时/无响应/出错/内容不匹配等 |
网络监控 | 网络性能监控:带宽、吞吐率、延迟、错误、抖动、PPS等、并发连接数、丢包率、重传率、可用性 |
安全监控 | 1. SSH:登录尝试和登录失败 2. syslog日志 3. auditd日志 |