gpu显卡简介

发布时间：2024年01月13日

一、目录

1.基本常用参数
2. nvidia 显卡基本了解(基本简介)
3. 显卡查看算力
4. 显卡算力、驱动版本（Driver Version）、CUDA Toolkit（CUDA Version）、PyTorch版本之间的关系
5. 显卡安装流程
6. NVIDIA显卡简介

二、实现

基本常用参数
1. 显存
2. 算力
3. 浮点性能(精度)：代表显卡的浮点计算能力，越高算力越强。
4. 带宽：显存带宽直接决定显卡的性能，越高则性能越强。它受到显存类型和显存容量的共同影响。
5. CUDA 核心和Tensor 核心：Core的数量越多，并行运算的线程越大，计算的峰值越高。
6. 频率：核心频率越高，显卡性能越强。在挑选显卡时，应注意核心频率与显存类型和显存容量的搭配，以确保整体性能的平衡。
nvidia 显卡基本了解(基本简介)
https://www.nvidia.cn/data-center/tensor-cores/
显卡查看算力
https://developer.nvidia.com/cuda-gpus
显卡算力、驱动版本（Driver Version）、CUDA Toolkit（CUDA Version）、PyTorch版本之间的关系
显卡算力：显卡本身的计算能力。
查看网址： https://developer.nvidia.com/cuda-gpus
驱动版本：根据显卡型号以及想要安装的cuda Toolkit 选择驱动版本，受系统版本影响。
网址：https://www.nvidia.cn/Download/index.aspx?lang=cn
cuda: 为程序提供一个开发环境。cuda 的选取由显卡驱动版本决定。
型号选取查看网址：https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
下载网址：https://developer.nvidia.com/cuda-toolkit-archive
详情网址：https://developer.nvidia.com/cuda-toolkit
pytorch: 程序开发框架。pytorch 的选取由cuda 决定，同时受算力影响，也对python 版本有要求。
网址：https://pytorch.org/get-started/previous-versions/
显卡安装流程(详情安装见gpu显卡安装帖子)
1. 安装显卡驱动
  网址：https://www.nvidia.cn/Download/index.aspx?lang=cn
  2. 安装CUDA Toolkit(cuda)
  网址：https://developer.nvidia.com/cuda-toolkit-archive
  3. 安装cudnn
  cudnn是由NVIDIA开发的一个深度学习GPU加速库。旨在提供高效、标准化的原语来加速深度学习框架在NVIDIA GPU上的运算。
  网址：https://developer.nvidia.com/rdp/cudnn-archive
  4. 安装python
  略
  5. 安装pytorch
  网址：https://pytorch.org/get-started/previous-versions/
NVIDIA显卡简介
NVIDIA常见的三大产品线如下：
1. GeForce类型: GeForce系列是NVIDIA面向个人计算和游戏市场推出的产品线，适用于游戏、图形处理等，并且在深度学习上的表现也非常出色，很多人用来做推理、训练，性价比高。例如目前非常热门的4090、3090等型号。
2. Quadro类型:Quadro系列是NVIDIA专为专业工作站和专业图像应用开发的产品线，比如设计、建筑等，是图像处理专业显卡，满足专业用户对精确图形处理和计算的需求。
3. Tesla类型: Tesla系列显卡是NVIDIA针对高性能计算和人工智能领域推出的产品线，被广泛应用于科学计算、深度学习、大规模数据分析等领域。Tesla显卡采用GPU加速计算，具备强大的并行计算能力和高性能计算效率，我们常说的A100、A800、V100、T4、P40等都属于Tesla系列的显卡。

显卡详情查看：https://www.nvidia.cn/data-center/tensor-cores/
https://www.nvidia.com/zh-tw/geforce/graphics-cards/compare/
如A100白皮书：https://www.nvidia.cn/data-center/a100/

在这里插入图片描述

1. Volta Tensor Core
第一代Tensor Core支持FP16和FP32下的混合精度矩阵乘法，可提供每秒超过100万亿次（TFLOPS）的深度学习性能，是Pascal架构的5倍以上。与Pascal相比，用于训练的峰值teraFLOPS（TFLOPS）性能提升了高达12倍，用于推理的峰值TFLOPS性能提升了高达6倍，训练和推理性能提升了3倍。
2. Turing Tensor Core
第二代Tensor Core提供了一系列用于深度学习训练和推理的精度（从FP32到FP16再到INT8和INT4），每秒可提供高达500万亿次的张量运算。
3. Ampere Tensor Core
第三代Tensor Core采用全新精度标准Tensor Float 32（TF32）与64位浮点（FP64），以加速并简化人工智能应用，可将人工智能速度提升至最高20倍。
4. Hopper Tensor Core
第四代Tensor Core使用新的8位浮点精度（FP8），可为万亿参数模型训练提供比FP16高6倍的性能。FP8用于 Transformer引擎，能够应用FP8和FP16的混合精度模式，大幅加速Transformer训练，同时兼顾准确性。FP8还可大幅提升大型语言模型推理的速度，性能较Ampere提升高达30倍。

文章来源:https://blog.csdn.net/weixin_40777649/article/details/135569167
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！