nvidia-smi
是 NVIDIA System Management Interface
的缩写。它是 NVIDIA 提供的一个命令行实用程序,用于管理和监控 NVIDIA GPU 显卡。nvidia-smi
提供了关于 GPU 的详细信息,包括但不限于:
这个工具主要用于性能监测、配置管理、故障诊断等,尤其是在服务器和高性能计算环境中非常有用。通过 nvidia-smi
,系统管理员和用户可以实时了解 GPU 的运行状态,并进行适当的优化和管理。
root@sh:/home/sh# nvidia-smi
Thu Dec 28 17:26:46 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.146.02 Driver Version: 535.146.02 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 3090 Off | 00000000:17:00.0 Off | N/A |
| 30% 28C P0 109W / 350W | 0MiB / 24576MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
| 1 NVIDIA GeForce RTX 3090 Off | 00000000:65:00.0 Off | N/A |
| 30% 29C P0 100W / 350W | 0MiB / 24576MiB | 6% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| No running processes found |
这个 nvidia-smi
命令输出提供了详细的信息关于系统中安装的 NVIDIA GPU 的状态。以下是输出结果的详细解释,以表格形式展示:
项目 | 描述 | GPU 0 | GPU 1 |
---|---|---|---|
Driver Version | NVIDIA 驱动程序的版本号。 | 535.146.02 | 535.146.02 |
CUDA Version | 安装的 CUDA 版本。 | 12.2 | 12.2 |
GPU Name | GPU 的型号。 | NVIDIA GeForce RTX 3090 | NVIDIA GeForce RTX 3090 |
Persistence-M | GPU 的持久模式设置。 | Off | Off |
Bus-Id | GPU 在 PCI 总线上的位置。 | 00000000:17:00.0 | 00000000:65:00.0 |
Disp.A | 显示活动状态。 | Off | Off |
Volatile Uncorr. ECC | 易失性未校正的 ECC(错误校正码)状态。 | N/A | N/A |
Fan | GPU 风扇速度的百分比。 | 30% | 30% |
Temp | GPU 的温度(摄氏度)。 | 28C | 29C |
Perf | 性能状态,如 P0,表示当前 GPU 的性能级别。 | P0 | P0 |
Pwr: Usage/Cap | 当前功率使用量和最大功率上限(瓦特)。 | 109W / 350W | 100W / 350W |
Memory-Usage | GPU 内存的使用量和总量(以 MiB 为单位)。 | 0MiB / 24576MiB | 0MiB / 24576MiB |
GPU-Util | GPU 的使用率百分比。 | 0% | 6% |
Compute M. | GPU 的计算模式,如 Default。 | Default | Default |
MIG M. | MIG(多实例 GPU)模式,适用于支持此功能的 GPU。 | N/A | N/A |
Processes | 显示在 GPU 上运行的进程及其 GPU 内存使用情况。 | 无运行进程 | 无运行进程 |