GPT-3 作为一个语言模型,被训练来预测下一个词。并未明确针对特定任务进行训练。
将要给语言模型往特定任务模型转换的过程中,需要以下两个输入:
主要有两种方式来进行这种适应训练:
语言模型其实就是一个概率模型,一句话可以表示为为每个token的条件概率的乘积
评价一个语言模型好坏指标:困惑度(Perplexity)
其中, X=x1,x2,...,xn?是测试集中的词序列, N?是测试集中的总词数。
如果一个语言模型好,那么它生成的这段句子的困惑的应该很小。
数据集名称 | 数据集简介 | 任务类型 | 效果评估 |
---|---|---|---|
Penn Tree Bank | 华尔街日报文章 | 文本生成 | |
LAMBADA | 预测句子的最后一个词 | 文本生成 | |
HellaSwag | 从一系列选择中选出最适合完成句子的选项. 最自然的做法是用语言模型为每个候选答案打分 | 文本生成 | SOTA结果是在该数据集的训练集中微调得到的结果,因此GPT-3在完全不在该数据集训练的情况下获得了接近的结果是很令人惊喜的。 |
TriviaQA | 给定一问题后生成答案,原始数据集是由业余爱好者收集的, | 问答(QA) | 增加模型大小和增加in-context training实例都有助于提高性能 |
WebQuestions | 和TriviaQA类似是问答任务 数据集从Google搜索查询中收集, | 问答(QA) | |
NaturalQuestions | 回答问题 从Google搜索查询中收集的数据集(区别在于答案的长度较长) | 问答(QA) | |
WMT’14/16 | 翻译任务是将源语言(例如,德语)中的句子翻译成目标语言(例如,英语)中的句子 | 翻译 | 即使没有监督训练数据,GPT-3也能达到全监督系统的最新技术水平 |
Arithmetic | 做算术题(2-5位数的加法,减法,乘法) | 推理 | |
newser.com | 给定标题和副标题,生成新闻文章 | 文本生成 |