04.利用大型数据集

发布时间：2024年01月10日

流行的 GPT 和类似 BERT 模型的大型训练数据集代表了包含数十亿个单词的多样化和全面的文本语料库，其中包括大量主题以及自然语言和计算机语言。为了提供一个具体的例子，表 1.1 总结了用于预训练 GPT-3 的数据集，该数据集是 ChatGPT 第一版的基础模型。

表 1.1 流行的 GPT-3 LLM 的预训练数据集

Dataset name	Dataset description	Number of tokens	Proportion in training data
CommonCrawl (filtered)	Web crawl data	410 billion 4100亿	60%
WebText2	Web crawl data	19 billion 190亿	22%

文章来源:https://blog.csdn.net/cq20110310/article/details/135503945
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！