大模型学习笔记05——大模型的数据

发布时间：2024年01月19日

大模型学习笔记05——大模型的数据

对于大模型来说，训练数据就是“原始文本”

大语言模型背后的数据

大型语言模型是在"原始文本"上进行训练的。为了实现高度的能力（如语言和世界知识），这些文本应涵盖广泛的领域、类型、语言等。
数据来源：网络和大公司私有数据
丰富的网络数据中存在的问题
- 大规模数据在全球人口中的代表性仍然不均衡。
- 网络数据过多地代表了来自发达国家的年轻用户。
- GPT-2的训练数据基于Reddit，根据皮尤互联网研究的2016年调查，美国Reddit用户中有67%是男性，64%的年龄在18到29岁之间。
- 维基百科的编者中只有8.8-15%是女性。
- 网络上的骚扰可能会让某些人群（如跨性别者、神经发育不同的人）产生排斥感。
- 过滤"不良词汇"可能进一步边缘化某些人群（如LGBT+）。因此，我们的结论是：理解和记录用于训练大型语言模型的数据集的组成是至关重要的。
Common Crawl：从网络上爬取数据，并免费给公众提供快照
WebText：从Common Crawl选取，创建WebText的过程包括：抓取至少获得3个赞的所有外链，过滤掉维基百科以便在基于维基百科的基准测试中进行评估，最终得到了40GB的文本。openai训练GPT-2数据，未公开
OpenWebText：按照WebText的方式复现
Colossal Clean Crawled Corpus(C4)：训练T5模型，从2019年4月的Common Crawl快照（1.4万亿个标记）开始，移除了“bad words”，移除了代码（“{”），通过langdetect过滤掉了非英语文本，最终得到了806GB的文本（1560亿个标记）。
Benchmark的数据污染问题：对于大型语言模型，训练数据和基准数据都源自互联网，要事先保证它们的完全分离就显得有些困难
The Pile数据集
网络和私有数据的总量是巨大的，但是简单地将所有数据（甚至是Common Crawl）都用于训练并不能有效地利用计算资源。数据的过滤和策划（如OpenWebText，C4，GPT-3数据集）是必要的，但可能会导致偏见。策划非网络的高质量数据集（如The Pile）是有前途的，但也需要仔细记录和审查这些数据集。

数据集文档

数据文档的作用
- 让数据集的创建者有机会反思他们的决策，以及在创建数据集过程中可能产生的潜在危害，比如社会偏见
- 让数据集的使用者了解何时可以使用数据集，何时不应使用数据集
数据集的生命周期中需要考虑的问题
- 数据集的创建动机，谁是数据集的创建者，数据集的创建是由谁资助的。
- 在数据集的组成部分，我们需要了解数据集中的实例代表什么，是否有缺失信息，是否包含机密数据等。
- 在收集过程中，我们需要了解每个实例的数据是如何获取的，谁参与了数据收集，他们是如何获得报酬的，以及是否进行了道德审查等。
- 在预处理、清理和标记阶段，我们需要了解这些工作是否已经完成，是否有相应的软件可供使用。
- 在数据集的使用方面，我们需要了解数据集是否已经被用于某些任务，是否有不适合使用该数据集的任务。
- 在分发阶段，我们需要了解数据集将如何分发，是否有第三方对数据施加了知识产权或其他的限制。
- 在维护阶段，我们需要了解谁会负责维护数据集，数据集是否会更新

数据生态

Hugging Face发起的BigScience项目旨在收集一个大型多语种数据集并训练一个大型语言模型。BigScience的数据治理工作组正在开发一个框架，以负责任地策划高质量的数据源，而不是无差别地爬取网页。

注

笔记原始文本地址：添加链接描述

文章来源:https://blog.csdn.net/qq_29787929/article/details/135691737
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！