Prometheus node_exporter计算CPU利用率的标准公式应该是哪一个

发布时间：2023年12月26日

有关CPU利用率计算的两个公式

使用PromQL计算CPU利用率，目前网上有两种说法。第一种（rate和irate均可，一个反映区间值，一个反映瞬时值，新版本指标名为node_cpu_seconds_total），计算单核：

1 - rate(node_cpu{mode="idle"}[5m])

计算节点，取各核平均值：

avg(1 - rate(node_cpu{mode="idle"}[5m])) by (instance)

第二种，计算单核：

1 - sum(increase(node_cpu{mode="idle"}[1m])) by (cpu,instance) / sum(increase(node_cpu[1m])) by (cpu,instance)

计算节点：

1 - sum(increase(node_cpu{mode="idle"}[1m])) by (instance) / sum(increase(node_cpu[1m])) by (instance)

为什么使用irate/rate计算CPU利用率结果是不准确/错误的

在实际使用中我们会发现，当节点的CPU实际利用率较低时，使用第一种公式计算出的CPU利用率与实际相差较大，这是因为该公式存在逻辑上的错误。以1 - rate(node_cpu{mode="idle"}[5m])，该公式计算逻辑为1 - 5分钟内CPU idle时间/CPU总运行时间5分钟，即假定CPU 5分钟内处于各状态的时间之和为5m。

我们使用一台4核空闲机器进行测试，top显示节点与单核CPU利用率约在1%左右，此时计算sum(increase(node_cpu[5m])) by (cpu)，可见5分钟内各状态时间之和约为50-60s：
在这里插入图片描述
使用chaosd加压（chaosd attack stress cpu -l 50 -w 4），top显示节点与单核CPU利用率约在75-85%左右，此时计算sum(increase(node_cpu[5m])) by (cpu)，可见5分钟内各状态时间之和约为180-190s：

继续加压（chaosd attack stress cpu -l 90 -w 4），top显示节点与单核CPU利用率约在92-93%左右，此时计算sum(increase(node_cpu[5m])) by (cpu)，可见5分钟内各状态时间之和约为280-290s：
在这里插入图片描述
由此可见，只有在CPU利用率较高时，CPU各状态之和才近似等于节点运行时间。

结论

使用irate/rate计算CPU利用率是不准确的，且CPU利用率越低计算结果越不准确。

因此在使用node_exporter计算CPU利用率时，因采用第二种方法。

文章来源:https://blog.csdn.net/sinat_32582203/article/details/135196180
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！