简介
MATHPILE:一个高质量、大规模的数学语料库,29 GB,包含约 95 亿个token。涵盖从 K-12 到大学、研究生水平和数学竞赛的内容,包括高质量教科书、讲义、科学论文等。提供详细的数据记录,包括数据集表格和质量注释,提高透明度并允许用户根据需要定制数据。
-数据来源和处理:数据最初来源于多个不同的数据源,总计大约 520 亿个令牌,占 2.2 TB 的数据量。
源数据包括 StackExchange、ProofWiki、Common Crawl、arXiv,以及其他来源。这些数据经过一系列严格的处理过程,包括数据预处理和预过滤、语言识别、清理和过滤,以及去重。
-MATHPILE 语料库:经过处理后,得到了一个以数学为中心的语料库,即 MATHPILE。这个语料库总计有 29 GB 的数据量,包含约 903,000 篇文档,以及大约 95 亿个令牌。
主要特点
1、数学领域专注:MathPile 是专门为数学领域设计的,与通用或多语言焦点的语料库有明显区别。
2、多样性:MathPile 从广泛的来源汇集数据,包括教科书(包括讲义)、arXiv、维基百科、ProofWiki、StackExchange 和网页。它涵盖了适合 K-12、大学、研究生水平和数学竞赛的数学内容。特别是,项目发布了大量高质量教科书的显著收藏(约 0.19B 令牌)。
3、高质量:项目坚持“少即是多”的原则,即使在预训练阶段也相信数据质量胜过数量。项目的数据收集和处理努力包括复杂的预处理、预过滤、清洁、过滤和去重,确保语料库的高质量。
4、数据文档:为了增强透明度,提供详细的数据记录,包括数据集表格和质量注释,提高透明度并允许用户根据需要定制数据。如语言识别分数和符号到单词的比率。这为用户提供了根据其需要定制数据的灵活性。
项目还进行了数据污染检测,以消除诸如 MATH 和 MMLU-STEM 等基准测试集的重复项。
通过这种专门的语料库,研究人员和开发者能够更有效地提高语言模型在数学推理方面的能力。
项目地址:gair-nlp.github.io/MathPile/
论文:arxiv.org/abs/2312.17120
GitHub:github.com/GAIR-NLP/MathPile
数据集:huggingface.co/datasets/GAIR/MathPile