datawhale 第二章-大模型的能力

发布时间:2024年01月16日
一、 概述

GPT-3 作为一个语言模型,被训练来预测下一个词。并未明确针对特定任务进行训练。

  • 在某些任务上,比如语言建模,GPT-3大幅度超越了现有技术的最高水平;
  • 在其他任务上,GPT-3与训练有素,拥有大量标签数据的系统竞争时,却明显落后
二、语言模型的适应性:从语言模型到任务模型的转化

将要给语言模型往特定任务模型转换的过程中,需要以下两个输入:

  • 任务描述:即解释一下你这个任务是要干嘛的
  • 训练实例:也就是通常说的带标签的数据对(比如:情感分析类的 输入:我真的很生气? 输出:生气)类似

主要有两种方式来进行这种适应训练:

  • 有监督学习(SFT):通用语言模型作为底座,利用带标签的数据训练一个新模型。
  • 提示(上下文)学习(in-context learning):根据对任务的描述建一个或一组提示/上下文信息,将其输入到语言模型中以获取基于该任务的生成结果
    零样本学习(Zero-shot):即提供的上下文信息中没有样例,模型基于对任务的理解输出结果
    单样本学习(One-shot):上下文信息中提供1个样例,
    少样本学习(Few-shot):上下文信息中提供多个样例,一般5个把。多了上下文会很大。
2.1?Language Modeling

语言模型其实就是一个概率模型,一句话可以表示为为每个token的条件概率的乘积

评价一个语言模型好坏指标:困惑度(Perplexity)

其中, X=x1,x2,...,xn?是测试集中的词序列, N?是测试集中的总词数。
如果一个语言模型好,那么它生成的这段句子的困惑的应该很小。

开源数据集评测结果
数据集名称数据集简介任务类型效果评估
Penn Tree Bank
华尔街日报文章文本生成
LAMBADA预测句子的最后一个词文本生成
HellaSwag从一系列选择中选出最适合完成句子的选项.
最自然的做法是用语言模型为每个候选答案打分
文本生成SOTA结果是在该数据集的训练集中微调得到的结果,因此GPT-3在完全不在该数据集训练的情况下获得了接近的结果是很令人惊喜的。
TriviaQA给定一问题后生成答案,原始数据集是由业余爱好者收集的,问答(QA)

增加模型大小和增加in-context training实例都有助于提高性能

WebQuestions和TriviaQA类似是问答任务 数据集从Google搜索查询中收集,问答(QA)
NaturalQuestions回答问题 从Google搜索查询中收集的数据集(区别在于答案的长度较长)问答(QA)
WMT’14/16翻译任务是将源语言(例如,德语)中的句子翻译成目标语言(例如,英语)中的句子翻译即使没有监督训练数据,GPT-3也能达到全监督系统的最新技术水平
Arithmetic做算术题(2-5位数的加法,减法,乘法)推理
newser.com给定标题和副标题,生成新闻文章文本生成
三、总结:
  • GPT-3可以在某一些任务上面表现得极好或者非常普通。
  • 增加模型的大小和示例的数量都有助于提高性能。
文章来源:https://blog.csdn.net/fan_fan_feng/article/details/135633321
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。