04.利用大型数据集

发布时间:2024年01月10日

流行的 GPT 和类似 BERT 模型的大型训练数据集代表了包含数十亿个单词的多样化和全面的文本语料库,其中包括大量主题以及自然语言和计算机语言。为了提供一个具体的例子,表 1.1 总结了用于预训练 GPT-3 的数据集,该数据集是 ChatGPT 第一版的基础模型。

表 1.1 流行的 GPT-3 LLM 的预训练数据集

Dataset name

Dataset description 

Number of tokens 

Proportion in training data

CommonCrawl (filtered) 

Web crawl data 

410 billion 4100亿

60%

WebText2 

Web crawl data 

19 billion 190亿

22%

文章来源:https://blog.csdn.net/cq20110310/article/details/135503945
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。