Adapter调参:提高NLP模型泛化能力的有效方法

发布时间:2024年01月23日

随着NLP预训练模型规模不断扩大,进行全量微调的计算成本越来越高。Adapter调参技术应运而生,可有效降低计算资源消耗,提高模型泛化能力。本文将简单介绍这一技术的优势及实现原理,让我们一起来看看Adapter从何而来及为何行之有效!

📌Adapter的由来

NLP预训练模型中参数越来越多,这给下游任务的微调带来了两大问题:

  • 💸训练成本高昂:全量微调预训练模型需要大量算力
  • 📉容易过拟合:直接微调所有参数易导致对下游任务过拟合

Adapter技术正是为了解决上述问题而提出的。它在模型中添加了极少量新参数,仅调整这部分新参数以适应下游任务,既降低了训练成本,也增强了模型在不同任务间的泛化能力。

💪Adapter的技术原理

Adapter的核心思路是:在预训练模型的每个Transformer层内插入Task-Specific Parameters用于下游任务,而模型主体参数固定不变

具体来说,对每个Transformer层,在多头注意力计算后和第二层前馈网络后分别插入两个Adapter模块。每个Adapter模块包含一个下投影层、一个上投影层和一个残差连接。

在训练下游任务时,仅对Adapter模块中的参数进行更新,预训练模型的参数固定住不变。这样就大大降低了训练成本,也避免了灾难性遗忘问题的发生。

📈Adapter的优势

相比全量微调,使用Adapter调参具有以下优势:

  • ??训练速度快:仅增加3.6%额外参数,计算量大幅下降
  • 💪泛化能力强:避免对单一任务过拟合
  • 🔄可重用:新增任务仅需添加适应该任务的Adapter

Adapter调参技术为模型在不同下游任务间的迁移学习提供了有效、高效的新思路。相信随着研究的深入,Adapter必将在NLP领域得到越来越广泛的应用!

文章来源:https://blog.csdn.net/weixin_36829761/article/details/135758898
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。