NLP预训练模型中参数越来越多,这给下游任务的微调带来了两大问题:
Adapter技术正是为了解决上述问题而提出的。它在模型中添加了极少量新参数,仅调整这部分新参数以适应下游任务,既降低了训练成本,也增强了模型在不同任务间的泛化能力。
Adapter的核心思路是:在预训练模型的每个Transformer层内插入Task-Specific Parameters用于下游任务,而模型主体参数固定不变。
具体来说,对每个Transformer层,在多头注意力计算后和第二层前馈网络后分别插入两个Adapter模块。每个Adapter模块包含一个下投影层、一个上投影层和一个残差连接。
在训练下游任务时,仅对Adapter模块中的参数进行更新,预训练模型的参数固定住不变。这样就大大降低了训练成本,也避免了灾难性遗忘问题的发生。
相比全量微调,使用Adapter调参具有以下优势:
Adapter调参技术为模型在不同下游任务间的迁移学习提供了有效、高效的新思路。相信随着研究的深入,Adapter必将在NLP领域得到越来越广泛的应用!