nvidia-smi

发布时间:2023年12月28日

nvidia-smiNVIDIA System Management Interface 的缩写。它是 NVIDIA 提供的一个命令行实用程序,用于管理和监控 NVIDIA GPU 显卡。nvidia-smi 提供了关于 GPU 的详细信息,包括但不限于:

  • GPU 的型号和序列号。
  • 驱动程序版本。
  • GPU 的使用率、温度和功率消耗。
  • 显存使用情况。
  • 正在运行的进程及其显存占用。

这个工具主要用于性能监测、配置管理、故障诊断等,尤其是在服务器和高性能计算环境中非常有用。通过 nvidia-smi,系统管理员和用户可以实时了解 GPU 的运行状态,并进行适当的优化和管理。

root@sh:/home/sh# nvidia-smi
Thu Dec 28 17:26:46 2023       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.146.02             Driver Version: 535.146.02   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3090        Off | 00000000:17:00.0 Off |                  N/A |
| 30%   28C    P0             109W / 350W |      0MiB / 24576MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA GeForce RTX 3090        Off | 00000000:65:00.0 Off |                  N/A |
| 30%   29C    P0             100W / 350W |      0MiB / 24576MiB |      6%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |

这个 nvidia-smi 命令输出提供了详细的信息关于系统中安装的 NVIDIA GPU 的状态。以下是输出结果的详细解释,以表格形式展示:

项目描述GPU 0GPU 1
Driver VersionNVIDIA 驱动程序的版本号。535.146.02535.146.02
CUDA Version安装的 CUDA 版本。12.212.2
GPU NameGPU 的型号。NVIDIA GeForce RTX 3090NVIDIA GeForce RTX 3090
Persistence-MGPU 的持久模式设置。OffOff
Bus-IdGPU 在 PCI 总线上的位置。00000000:17:00.000000000:65:00.0
Disp.A显示活动状态。OffOff
Volatile Uncorr. ECC易失性未校正的 ECC(错误校正码)状态。N/AN/A
FanGPU 风扇速度的百分比。30%30%
TempGPU 的温度(摄氏度)。28C29C
Perf性能状态,如 P0,表示当前 GPU 的性能级别。P0P0
Pwr: Usage/Cap当前功率使用量和最大功率上限(瓦特)。109W / 350W100W / 350W
Memory-UsageGPU 内存的使用量和总量(以 MiB 为单位)。0MiB / 24576MiB0MiB / 24576MiB
GPU-UtilGPU 的使用率百分比。0%6%
Compute M.GPU 的计算模式,如 Default。DefaultDefault
MIG M.MIG(多实例 GPU)模式,适用于支持此功能的 GPU。N/AN/A
Processes显示在 GPU 上运行的进程及其 GPU 内存使用情况。无运行进程无运行进程

解释:

  • 这个输出展示了系统中有两块 NVIDIA GeForce RTX 3090 显卡,目前都没有在运行计算密集型进程。
  • 每块显卡的风扇转速都保持在 30%,温度分别为 28℃ 和 29℃,这表示它们目前处于相对闲置的状态。
  • GPU 0 的功率使用率是 109W,而 GPU 1 是 100W,都远低于它们的最大功率上限(350W)。
  • GPU 内存没有被使用(0 MiB / 24576 MiB),GPU 利用率也很低(GPU 0 为 0%,GPU 1 为 6%)。
  • “Persistence-M” 设置为 Off,表示 GPU 没有被设置为持久模式。在持久模式下,GPU 会保持高性能状态,即使没有运行进程也不会降低性能状态,这有助于减少启动新任务时的延迟。
文章来源:https://blog.csdn.net/sunyuhua_keyboard/article/details/135274858
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。