本文主要搭建经典的一维卷积神经网路模型,用于完成 IMDB 电影评论的情感分类预测任务,并在最后对模型进行了改造升级。
IMDB 数据中每个样本都有一个电影评论文本
和情感标签
,如下所示展示了两个样本,0
和 1
分别表示的是负面情感
和正面情感
:
b"I gave this a four purely out of its historical context. ... If you are a Stooge fan, then stick with the shorts."
0
b'First than anything, I\'m not going to praise I\xc3\xb1arritu\'s short film, ... that is not equal to American People.'
1
首先我们要将样本中的一些无用字符进行剔除,将样本数据清洗
干净,然后使用 TextVectorization
来对样本中的评论数据进行向量化
,也就是先进行分词,然后将分词映射成对应的整数,最后得到就是将评论转变后的整数数组
。关键代码如下:
vectorize_layer = TextVectorization(standardize=custom_standardization, max_tokens=max_features, output_mode="int", output_sequence_length=sequence_length)
text_ds = raw_train_ds.map(lambda x, y: x)
vectorize_layer.adapt(text_ds)
def vectorize_text(text, label):
text = tf.expand_dims(text, -1)
return vectorize_layer(text), label
train_ds = raw_train_ds.map(vectorize_text).cache().prefetch(buffer_size = 10)
val_ds = raw_val_ds.map(vectorize_text).cache().prefetch(buffer_size = 10)
test_ds = raw_test_ds.map(vectorize_text).cache().prefetch(buffer_size = 10)
我们搭建的是一个简单但是经典的文本分类模型,由以下部分构成:
inputs = tf.keras.Input(shape=(None,), dtype="int64")
:创建一个可变长度的整数序列输入张量,用于接收上面经过向量化的文本数据。x = layers.Embedding(max_features, embedding_dim)(inputs)
:对输入的整数序列进行嵌入操作,将每个整数转换为对应的向量表示。x = layers.Dropout(0.5)(x)
:在嵌入层后添加了一个丢弃 50% 的Dropout层,用于在训练过程中随机丢弃一定比例的神经元,以防止过拟合。x = layers.Conv1D(128, 7, padding="valid", activation="relu", strides=3)(x)
:添加了一个一维卷积层,用于提取文本特征。x = layers.GlobalMaxPool1D()(x)
:应用一维全局最大池化操作,用于提取每个卷积核的最大特征值,以捕获最重要的特征。x = layers.Dense(128, activation="relu")(x)
:添加一个包含128个神经元的全连接层,并使用ReLU激活函数。x = layers.Dropout(0.5)(x)
:再次添加Dropout层,以进一步减少过拟合的风险。predictions = layers.Dense(1, activation="sigmoid", name="predictions")(x)
:最后添加一个输出层,用于二元分类任务的预测,使用 Sigmoid 激活函数输出 0 或者 1 。model = tf.keras.Model(inputs, predictions)
:创建一个Keras模型,将输入和输出连接起来。model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
:编译模型,指定损失函数、优化器以及评估指标。model.fit(train_ds, validation_data=val_ds, epochs=3)
:使用训练数据集进行模型训练,同时使用验证数据集进行验证,训练 3 个 epochs 。训练日志打印:
Epoch 1/3
157/157 [==============================] - 9s 26ms/step - loss: 0.6597 - accuracy: 0.5632 - val_loss: 0.4223 - val_accuracy: 0.8080
Epoch 2/3
157/157 [==============================] - 1s 9ms/step - loss: 0.3168 - accuracy: 0.8676 - val_loss: 0.3400 - val_accuracy: 0.8596
Epoch 3/3
157/157 [==============================] - 1s 9ms/step - loss: 0.1406 - accuracy: 0.9501 - val_loss: 0.3697 - val_accuracy: 0.8750
使用测试数据进行模型效果测试,日志打印:
196/196 [==============================] - 4s 18ms/step - loss: 0.3887 - accuracy: 0.8665
由于上面的模型的输入只能接收经过向量化处理的整数
,而我们平时遇到的都是直接输入字符串
,所以需要将上面的模型进行改造,我们在上面已经训练好的模型的前面再添加一个输入层专门用于接受字符串
,然后再跟一个 vectorize_layer 层
用来将字符串进行向量化,接着传入到我们之前已经训练好的模型
中即可。最后使用 Model 模型将输入和输出固定就可以造出一个新的用于接收字符串的模型,我们可以直接输入电影文本评论用于预测情感倾向。
关键代码:
inputs = tf.keras.Input(shape=(1,), dtype="string")
indices = vectorize_layer(inputs)
outputs = model(indices)
end_to_end_model = tf.keras.Model(inputs, outputs)
end_to_end_model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
end_to_end_model.evaluate(raw_test_ds)
使用测试数据进行测试,将日志打印出来,可以看出和上面的测试结果是一样的:
196/196 [==============================] - 4s 18ms/step - loss: 0.3887 - accuracy: 0.8665
https://github.com/wangdayaya/DP_2023/blob/main/NLP%20%E6%96%87%E7%AB%A0/Text%20classification%20from%20scratch.py