datawhale 第二章-大模型的能力

发布时间：2024年01月16日

一、概述

GPT-3 作为一个语言模型，被训练来预测下一个词。并未明确针对特定任务进行训练。

在某些任务上，比如语言建模，GPT-3大幅度超越了现有技术的最高水平；
在其他任务上，GPT-3与训练有素，拥有大量标签数据的系统竞争时，却明显落后

二、语言模型的适应性：从语言模型到任务模型的转化

将要给语言模型往特定任务模型转换的过程中，需要以下两个输入：

任务描述：即解释一下你这个任务是要干嘛的
训练实例：也就是通常说的带标签的数据对（比如：情感分析类的输入：我真的很生气? 输出：生气）类似

主要有两种方式来进行这种适应训练：

有监督学习（SFT):通用语言模型作为底座，利用带标签的数据训练一个新模型。
提示（上下文）学习（in-context learning):根据对任务的描述建一个或一组提示/上下文信息，将其输入到语言模型中以获取基于该任务的生成结果
零样本学习(Zero-shot)：即提供的上下文信息中没有样例，模型基于对任务的理解输出结果
单样本学习(One-shot)：上下文信息中提供1个样例，
少样本学习(Few-shot)：上下文信息中提供多个样例，一般5个把。多了上下文会很大。

2.1?Language Modeling

语言模型其实就是一个概率模型，一句话可以表示为为每个token的条件概率的乘积

评价一个语言模型好坏指标：困惑度（Perplexity）

其中， X=x1,x2,...,xn?是测试集中的词序列， N?是测试集中的总词数。
如果一个语言模型好，那么它生成的这段句子的困惑的应该很小。

开源数据集评测结果
数据集名称	数据集简介	任务类型	效果评估
Penn Tree Bank	华尔街日报文章	文本生成
LAMBADA	预测句子的最后一个词	文本生成
HellaSwag	从一系列选择中选出最适合完成句子的选项. 最自然的做法是用语言模型为每个候选答案打分	文本生成	SOTA结果是在该数据集的训练集中微调得到的结果，因此GPT-3在完全不在该数据集训练的情况下获得了接近的结果是很令人惊喜的。
TriviaQA	给定一问题后生成答案,原始数据集是由业余爱好者收集的，	问答（QA）	增加模型大小和增加in-context training实例都有助于提高性能
WebQuestions	和TriviaQA类似是问答任务数据集从Google搜索查询中收集，	问答（QA）
NaturalQuestions	回答问题从Google搜索查询中收集的数据集（区别在于答案的长度较长）	问答（QA）
WMT’14/16	翻译任务是将源语言（例如，德语）中的句子翻译成目标语言（例如，英语）中的句子	翻译	即使没有监督训练数据，GPT-3也能达到全监督系统的最新技术水平
Arithmetic	做算术题（2-5位数的加法，减法，乘法）	推理
newser.com	给定标题和副标题，生成新闻文章	文本生成

三、总结：

GPT-3可以在某一些任务上面表现得极好或者非常普通。
增加模型的大小和示例的数量都有助于提高性能。

文章来源:https://blog.csdn.net/fan_fan_feng/article/details/135633321
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！

datawhale 第二章-大模型的能力

一、 概述

二、语言模型的适应性：从语言模型到任务模型的转化

2.1?Language Modeling

Penn Tree Bank

三、总结：

一、概述