流行的 GPT 和类似 BERT 模型的大型训练数据集代表了包含数十亿个单词的多样化和全面的文本语料库,其中包括大量主题以及自然语言和计算机语言。为了提供一个具体的例子,表 1.1 总结了用于预训练 GPT-3 的数据集,该数据集是 ChatGPT 第一版的基础模型。
表 1.1 流行的 GPT-3 LLM 的预训练数据集
Dataset name |
Dataset description |
Number of tokens |
Proportion in training data |
CommonCrawl (filtered) |
Web crawl data |
410 billion 4100亿 |
60% |
WebText2 |
Web crawl data |
19 billion 190亿 |
22% |