在当今信息时代, 自然语言处理 (NLP, Natural Linguistic Processing) 已经称为人工智能领域的一个关键分支. NLP 的目标是使计算机能够理解, 解释和操作人类语言, 从而在各种应用中发挥作用, 如语音识别, 机器翻译, 情感分析等. 随着技术的进步, NLP 已经从简单的规则和统计方法发展到使用复杂的深度学习模型, 今天我们要来介绍的就是 Bert.
NLP 的不同任务包含:
今年我们主要介绍的是文本分类任务.
Bert (Bidirectional Encoder Representations from Transformers) 是一种基于 Transformer 架构的的模型. 在 2018 年由 Google 提出. Bert 采用了双向训练方法, 在模型学习给定的词时, 会考虑其上下文.
Bert 的双向训练方法包括下面两个方面:
MLM (Masked Language Modeling) 任务: 在 MLM 任务重, 会在输入文本中随机屏蔽一部分单词, 然后要求 Bert 模型预测被 Masked 单词的正确值.
分词 (Tokenization): 将文本按词 (Word) 为单位进行分割, 并转换为数字数据.
- 常见单词, 例如数据中的人名:
- Rachel
对应 token id 5586
- Chandler
对应 token id 13814
- Phoebe
对应 token id 18188
- 上述 token id 对应 bert 的 vocab 中, roberta 的 vocab 表在服务器上, 懒得找了
- 特殊字符:
- [CLS]
: token id 101
, 表示句子的开始
- [SEP]
: token id 102
, 表示分隔句子或文本片段
- [PAD]
: token id 0
, 表示填充 (Padding), 当文本为达到指定长度时, 例如 512, 会用[PAD]
进行填充
- [MASK]
: token id 0
, 表示填充 (Padding), 当文本为达到指定长度时, 例如 512, 会用[PAD]
进行填充
上述字符在 Bert & Bert-like 模型中扮演着至关重要的角色, 在不同的任务重, 这些 Token ID 都是固定的, 例如 Bert 为 30522 个.
FYI: 上面的超链接是 jieba 分词的一个简单示例.
在 MLM 任务重, 输入文本首先被 Tokenize (分词), 词被转换为一个个数字数据, 文本由常见单词和特殊字符组成. 在处理过程中, 模型随机选择文本中的一定比例的 token (栗如: 15%). 并将这些标记替换为一个特定的特殊标记, 如[MASK]
(token id 0). 模型的任务是啥预测这些 mask token 的原始值.
MLM 的主要目的是使模型能够更好的理解语言的上下文和语义. 在传统的语言模型 (如 N-gram, 隐马可夫模型 HMM, 循环神经网络 RNN) 训练中模型都是单向的, 即模型只能考虑单词的前面或后面的上下文. 通过 MLM, 模型被迫学习使用一个单词前后的上下文来预测这个单词, 从而获得更全面的语言理解能力.
NSP (Next Sentence Prediction) 是 Bert 模型中的一个关键组成部分. NSP 用于改善模型对句子关系的理解, 特别是在理解段落或文档中句子关系方面. 这种能力对许多 NLP 任务至关重要, 例如: 问答系统, 文本摘要, 对话系统等.
在 NSP 任务重, 模型被训练来预测两个句子是否在原始文本中相邻. 这个过程涉及对句子间和语义关系的深入理解. 个栗子: A & B 俩句子, 模型需要判断 B 是否是紧跟在 A 后面的下一句. 在 Training 过冲中, Half time B 确实是 A 的下一句, 另一半时间 B 则是从语料库中随机选取的与 A 无关的句子. NSP 就是基于这些句子判断他们是否是连续的, 强迫模型学习识别句子的连贯性和上下文关系.
连续:
- 句子 A: “我是小白呀今年才 18 岁”
- 句子 B: “真年轻”
- NSP: 连续, B 是对 A 的回应 (年龄), 表达了作者 “我” 十分年轻
不连续:
- 句子 A: “意大利面要拌”
- 句子 B: “42 号混凝土”
- NSP: 不连续, B 和 A 内容完全无关
尽管在 NSP 和 Bert 的初期奔波中被广泛使用, 但是 NSP 也存在一些局限性. NSP 任务有时可能过于简化, 无法完全捕捉复杂文本中的细微关系.
随着 NLP 模型的发展, 一些研究发现去除 NSP 对某些模型的性能影响不大, 例如: Roberta, Xlnet, 和 Deberta 等后续模型都去除了 NSP 任务. 因为这些模型的底层双向结构已经足够强大, 能欧在没有 NSP 的情况下理解句子间的复杂关系.
pip install pytorch
pip install transformers
Transformer 模型在 2017 年被提出, 是一种基于注意力机制 (Attention) 的架构, 用于处理序列数据. 与之前的序列处理模型 (RNN 和 LSTM) 不同, Transformer 完全依赖于注意力机制来捕获序列的全局依赖关系, 这使得模型在处理长距离依赖时更加有效.
Bert 的核心组成部分之一是基于 Transformer 的编码器, 即 TrasnformerEncoder.
class TransformerEncoder(Layer):
def __init__(self, encoder_layer, num_layers, norm=None):
super(TransformerEncoder, self).__init__()
# 由多层encoder_layer组成,论文中给出,bert-base是12层,bert-large是24层,一层结构就如上图中蓝色框里的结构
# num_layers = 12 or 24
# LayerList称之为容器,使用方法和python里的list类似
self.layers = LayerList([(encoder_layer if i == 0 else type(encoder_layer)(**encoder_layer._config)) for i in range(num_layers)])
self.num_layers = num_layers
TransformerEncoder 由多个相同的层堆叠而成, 每层包含两个主要子层:
每个子层后面有一个残差链接 (Residual Connection) 和层归一化 (Layer Normalization). 残差连接有助于避免在深层网络中出现的梯度消失 (Vanishing Gradient) 问题, 而层归一化则有助于稳定训练过程.
TransformersEncoder
层中重复进行, 每一层都进一步增强了模型对文本的理解"""
@Module Name: bert.py
@Author: CSDN@我是小白呀
@Date: December 14, 2023
Description:
200 行实现 Bert 文本分类 (tokenize 部分)
"""
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from transformers import BertTokenizer
import pickle
bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
MAX_LENGTH = 512
def load_data_raw():
# 读取数据
train = pd.read_csv("../../data/train.csv")
test = pd.read_csv("../../data/test.csv")
# 类别对应的数量
print(train.groupby(["category"])["category"].count())
# label 进行 one-hot
train["label"] = pd.get_dummies(train["label"]).to_numpy().tolist()
return train, test
def custom_truncate(text):
text_list = text.split(' ')
length = len(text_list)
if length <= 512:
return text
# 自定义截断函数
half_max_len = MAX_LENGTH // 2
first_half = ' '.join(text_list[:half_max_len])
last_half = ' '.join(text_list[-half_max_len:])
return first_half + ' ' + last_half
def tokenize_raw():
train, test = load_data_raw()
train_feature = train["text"].tolist()
train_label = train["label"].tolist()
test_feature = test["text"].tolist()
# 分割数据
X_train, X_valid, y_train, y_valid = train_test_split(train_feature, train_label, stratify=train_label,
random_state=0, test_size=0.1)
y_train = np.asarray(y_train, dtype=np.float32)
y_valid = np.asarray(y_valid, dtype=np.float32)
# 应用自定义截断
X_train = [custom_truncate(i) for i in X_train]
X_valid = [custom_truncate(i) for i in X_valid]
X_test = [custom_truncate(i) for i in test_feature]
# Tokenizer
X_train = bert_tokenizer(X_train, padding=True, truncation=True, max_length=MAX_LENGTH)
X_valid = bert_tokenizer(X_valid, padding=True, truncation=True, max_length=MAX_LENGTH)
X_test = bert_tokenizer(X_test, padding=True, truncation=True, max_length=MAX_LENGTH)
train_data = {
'X_train': X_train,
'X_valid': X_valid,
'y_train': y_train,
'y_valid': y_valid
}
# 保存
with open('../../save/raw/train_raw_cut.pkl', 'wb') as f:
pickle.dump(train_data, f)
with open('../../save/raw/test_raw_cut.pkl', 'wb') as f:
pickle.dump(X_test, f)
if __name__ == '__main__':
tokenize_raw()
"""
@Module Name: bert.py
@Author: CSDN@我是小白呀
@Date: December 14, 2023
Description:
200 行实现 Bert 文本分类 (训练部分)
"""
import numpy as np
import tensorflow as tf
from tensorflow.keras import Model
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
from transformers import BertTokenizer, TFBertModel
import pickle
import logging
# 超参数
EPOCHS = 20 # 迭代次数
BATCH_SIZE = 16 # 单词训练样本数目
learning_rate = 5e-6 # 学习率
INPUT_DIM = 50000
MAX_LENGTH = 512
optimizer = Adam(learning_rate=learning_rate) # 优化器
loss = tf.keras.losses.MeanSquaredError() # 损失
bert_tokenizer = BertTokenizer.from_pretrained("bert-large-uncased") # Bert的分词器
bert_model = TFBertModel.from_pretrained("bert-large-uncased") # Bert的分词器
prefix = "_raw"
logging.basicConfig(filename='model/bert_large/training_log.log', level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
class TrainingLoggingCallback(tf.keras.callbacks.Callback):
def on_epoch_end(self, epoch, logs=None):
if logs is not None:
logging.info(f"Epoch {epoch + 1}/{EPOCHS}")
logging.info(f"loss: {logs['loss']} - accuracy: {logs['accuracy']}")
logging.info(f"val_loss: {logs['val_loss']} - val_accuracy: {logs['val_accuracy']}")
logging.info(f"lr: {self.model.optimizer.lr.numpy()}")
def get_data():
"""
读取数据
:return: 返回分批完的训练集和测试集
"""
# 读取
with open('../save/raw/train.pkl', 'rb') as f:
combined_data = pickle.load(f)
X_train = combined_data['X_train']
X_valid = combined_data['X_valid']
y_train = combined_data['y_train']
y_valid = combined_data['y_valid']
# 获取input/mask
train_input = X_train["input_ids"]
train_mask = X_train["attention_mask"]
train_input = np.asarray(train_input)
train_mask = np.asarray(train_mask)
val_input = X_valid["input_ids"]
val_mask = X_valid["attention_mask"]
val_input = np.asarray(val_input)
val_mask = np.asarray(val_mask)
return train_input, val_input, train_mask, val_mask, y_train, y_valid
def lr_schedule(epoch, lr):
"""
学习率递减
"""
if epoch < 1:
return lr
else:
return lr * 0.9
def main():
# 加载数据
X_train_input, X_test_input, X_train_mask, X_test_mask, y_train, y_test = get_data()
print(X_train_input[:5], X_train_input.shape)
print(X_test_input[:5], X_test_input.shape)
print(X_train_mask[:5], X_train_mask.shape)
print(X_test_mask[:5], X_test_mask.shape)
print(y_train[:5], y_train.shape)
print(y_test[:5], y_test.shape)
input_ids = tf.keras.Input(shape=(MAX_LENGTH,), dtype=tf.int32)
masks = tf.keras.Input(shape=(MAX_LENGTH,), dtype=tf.int32)
bert = bert_model([input_ids, masks])
bert = bert[1]
classifier = Dense(24, activation='softmax')(bert)
# 模型
model = Model(inputs=[input_ids, masks], outputs=classifier)
print(model.summary())
# 组合
model.compile(optimizer=optimizer, loss=loss, metrics=["accuracy"])
# 保存
checkpoint = tf.keras.callbacks.ModelCheckpoint(
"model/bert_large/bert_large.ckpt", monitor='val_loss',
verbose=1, save_best_only=True, mode='min',
save_weights_only=True
)
# 学习率调度
lr_scheduler = tf.keras.callbacks.LearningRateScheduler(lr_schedule)
# 早停
early_stopping = tf.keras.callbacks.EarlyStopping(
monitor='val_loss',
patience=2,
verbose=1,
restore_best_weights=True
)
# 训练
model.fit([X_train_input, X_train_mask], y_train, validation_data=([X_test_input, X_test_mask], y_test),
epochs=EPOCHS, batch_size=BATCH_SIZE,
callbacks=[checkpoint, lr_scheduler, TrainingLoggingCallback(), early_stopping])
if __name__ == '__main__':
main()
"""
@Module Name: bert.py
@Author: CSDN@我是小白呀
@Date: December 14, 2023
Description:
200 行实现 Bert 文本分类 (测试部分)
"""
import numpy as np
import pandas as pd
import tensorflow as tf
from transformers import BertTokenizer, TFBertModel
import pickle
# 定义超参数
batch_size = 16 # 一次训练的样本数目
MAX_LENGTH = 512
bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") # Bert的分词器
bert_model = TFBertModel.from_pretrained("bert-base-uncased") # Bert的分词器
def get_data():
"""
读取数据
:return: 返回分批完的训练集和测试集
"""
# 读取数据
with open('../save/raw/tokenized_test_raw.pkl', 'rb') as f:
X = pickle.load(f)
test = pd.read_csv("../data/test.csv")
characters_input = X["input_ids"]
characters_mask = X["attention_mask"]
characters_input = np.asarray(characters_input)
characters_mask = np.asarray(characters_mask)
print(characters_input.shape)
print(characters_mask.shape)
return test, characters_input, characters_mask
def main():
# 获取数据
data_test, characters_input, characters_mask = get_data()
print(characters_input[:5])
print(characters_mask[:5])
# 加载模型
input_ids = tf.keras.Input(shape=(MAX_LENGTH,), dtype=tf.int32)
masks = tf.keras.Input(shape=(MAX_LENGTH,), dtype=tf.int32)
bert = bert_model([input_ids, masks]) # I have to add this particular line
output = bert[1]
output = tf.keras.layers.Dense(24)(output)
# 模型
model = tf.keras.Model(inputs=[input_ids, masks], outputs=output)
# 添加权重
model.load_weights("model/bert_base_raw/bert_base_raw.ckpt")
# 预测
y_predict = model.predict([characters_input, characters_mask], batch_size=batch_size)
print(y_predict, len(y_predict))
result_array = np.argmax(y_predict, axis=1)
print(result_array[:5])
# 获取结果
data_test["label"] = result_array
data_test = data_test[["node_id", "label"]]
data_test.to_csv("submit_raw.csv", index=False)
if __name__ == "__main__":
main()