深度学习-Pytorch数据集构造和分批加载

发布时间：2024年01月25日

深度学习-Pytorch数据集构造和分批加载

pytorch 目前在深度学习具有重要的地位，比起早先的caffe，tensorflow，keras越来越受到欢迎，其他的深度学习框架越来越显得小众。

数据分析

数据分析-Pandas如何转换产生新列

数据分析-Pandas如何统计数据概况

数据分析-Pandas如何轻松处理时间序列数据

数据分析-Pandas如何选择数据子集

数据分析-Pandas如何重塑数据表-CSDN博客

经典算法

经典算法-遗传算法的python实现

经典算法-模拟退火算法的python实现

经典算法-粒子群算法的python实现-CSDN博客

LLM应用

大模型查询工具助手之股票免费查询接口

Python技巧-终端屏幕打印光标和文字控制

导入模块

import torch
from torch import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor

pytorch 有两个处理数据的核心模块，torch.utils.data.DataLoader 和 torch.utils.data.Dataset 。

数据集 Dataset 存储样本和对应的标签，而DataLoader 则按设定数据包的大小把数据集迭代进行打包。

构造数据集

针对文本，视觉和音频数据，Pytorch还提供特定数据的模块，例如 TorchText, TorchVision, and TorchAudio, 包括样例数据集。为了方便起见，在此使用视觉数据集举例。

torchvision.datasets 模块的Dataset对象，就包含真实世界的很多图像数据，比如CIFAR, COCO。而常用举例的数据包括MNIST手写体，FashionMNIST 等等。

对于每个图像数据集而言，很关键的是有两个参数，方便大家使用，达到事半功倍的效果。它们是

transform 和 target_transform，提供原始的图像数据转化功能，例如转为tensor 的函数ToTensor：

# Download training data from open datasets.
training_data = datasets.FashionMNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor(),
)

# Download test data from open datasets.
test_data = datasets.FashionMNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor(),
)

分批加载数据

深度学习训练数据集都很大，几乎不可能把所有数据一次加载进行训练，通常需要分批次进行加载。pytorch封装数据加载函数，把数据集作为参数，调用DataLoader函数。要把数据打包，一次次分批返回数据包。函数支持自动分批次，抽样，随机打乱，多次加载等功能。下面定义每批数据共有64个样本：

batch_size = 64

# Create data loaders.
train_dataloader = DataLoader(training_data, batch_size=batch_size)
test_dataloader = DataLoader(test_data, batch_size=batch_size)

for X, y in test_dataloader:
    print(f"Shape of X [N, C, H, W]: {X.shape}")
    print(f"Shape of y: {y.shape} {y.dtype}")
    break

Shape of X [N, C, H, W]: torch.Size([64, 1, 28, 28])
Shape of y: torch.Size([64]) torch.int64

很简单吧，里面把数据按批次加载了，每批64个样本，样本为单通道数据，长和宽分别为28像素。

以上代码只是一个简单示例，示例代码中的表达式可以根据实际问题进行修改。

觉得有用 收藏收藏收藏

点个赞点个赞点个赞

End

GPT专栏文章：

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

GPT实战系列-LangChain + ChatGLM3构建天气查询助手

大模型查询工具助手之股票免费查询接口

GPT实战系列-简单聊聊LangChain

GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型，到底做了什么？(二)

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型，到底做了什么？(一)

GPT实战系列-ChatGLM2模型的微调训练参数解读

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案

GPT实战系列-Baichuan2本地化部署实战方案

GPT实战系列-Baichuan2等大模型的计算精度与量化

GPT实战系列-GPT训练的Pretraining，SFT，Reward Modeling，RLHF

GPT实战系列-探究GPT等大模型的文本生成-CSDN博客

文章来源:https://blog.csdn.net/Alex_StarSky/article/details/135833928
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！