text_dataset_from_directory
用于从目录中读取文本文件并创建一个数据集。这个函数可以自动将文本文件转换为整数序列,以便在神经网络中使用。
keras.utils.text_dataset_from_directory(
directory,
labels="inferred",
label_mode="int",
class_names=None,
batch_size=32,
max_length=None,
shuffle=True,
seed=None,
validation_split=None,
subset=None,
follow_links=False,
)
directory
:包含文本文件的目录路径。labels="inferred"
:默认值为"inferred",表示Keras将尝试从文件名中推断标签。如果需要手动指定标签,可以将此参数设置为一个整数列表或字典。label_mode="int"
:默认值为"int",表示标签将被编码为整数。如果需要使用其他模式(如"categorical"),可以将此参数设置为相应的字符串。class_names=None
:可选参数,用于指定类别名称。如果提供了类别名称列表,数据集将使用这些名称进行编码。batch_size=32
:每个批次中的样本数量。max_length=None
:可选参数,用于限制每个样本的最大长度。如果未指定,则使用文件中最长的样本作为最大长度。shuffle=True
:是否在每个epoch开始时对数据进行洗牌。seed=None
:随机数生成器的种子,用于确保可重复的结果。validation_split=None
:可选参数,用于指定验证集的比例。如果提供了值,将从训练集中划分出相应比例的数据作为验证集。subset=None
:可选参数,用于指定要加载的子集("training"、"validation"或"testing")。follow_links=False
:是否跟随符号链接。如果为True,将加载符号链接指向的文件;如果为False,将加载实际文件。import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
#定义一个函数来创建数据集
def create_dataset(directory, num_words=None, sequence_length=100):
# 使用Tokenizer对文本进行编码
tokenizer = Tokenizer(num_words=num_words)
tokenizer.fit_on_texts(directory)
sequences = tokenizer.texts_to_sequences(directory)
# 对序列进行填充,使它们具有相同的长度
padded_sequences = pad_sequences(sequences, maxlen=sequence_length)
return padded_sequences
#使用create_dataset函数创建数据集,并将其分为训练集和验证集
train_data = create_dataset('path/to/train/directory')
val_data = create_dataset('path/to/validation/directory')
#使用keras.utils.text_dataset_from_directory函数创建数据集
train_dataset = keras.utils.text_dataset_from_directory(
'path/to/train/directory',
batch_size=32,
sequence_length=100,
validation_split=0.2,
subset='training',
seed=42,
class_mode='categorical'
)
val_dataset = keras.utils.text_dataset_from_directory(
'path/to/validation/directory',
batch_size=32,
sequence_length=100,
validation_split=0.2,
subset='validation',
seed=42,
class_mode='categorical'
)
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import text_dataset_from_directory
# 设置参数
directory = 'path/to/your/directory' # 指定包含文本数据的目录路径
batch_size = 32 # 每个批次中的样本数量
max_length = 100 # 每个样本的最大长度
# 创建数据集
train_dataset = text_dataset_from_directory(
directory,
batch_size=batch_size,
max_length=max_length,
shuffle=True,
validation_split=0.2,
subset='training', #设置subset='training',表示只加载训练集的数据
)
val_dataset = text_dataset_from_directory(
directory,
batch_size=batch_size,
max_length=max_length,
shuffle=True,
validation_split=0.2,
subset='validation', #设置subset='validation',表示只加载验证集的数据
)