书生·浦语大模型全链路开源体系

发布时间：2024年01月05日

书生·浦语大模型全链路开源体系

internLM介绍
从模型到应用
书生·浦语大模型全链路开源体系
补充资料

internLM介绍

书生·浦语大模型系列

轻量级：InternLM-7B 社区低成本可用最佳模型规模
- 70亿模型参数，小巧轻便，便于部署
- 10000亿训练token数据，信息全面，能力多维
- 具备长语境能力，支持8k语境窗口长度
- 具备通用工具调用能力，支持多种工具调用模板
中量级：InternLM-20B 商业场景可开发定制高精度较小模型规模
- 200亿参数量，在模型能力与推理代价间取得平衡
- 采用深而窄的结构，降低推理计算量但提高了推理能力
- 4k训练语境长度，推理时可外推至16k
全面领先相近量级的开源模型（包括Llama-33B、Llama2-13B以及国内主流的7B, 13B开源模型)
以不足三分之一的参数量，达到Llama2-70B水平学科
重量级：InternLM-123B 通用大语言模型能力全面覆盖干亿模型规模
- 1230亿模型参数，强大的性能
- 具备极强的推理能力、全面的知识覆盖面、超强理解能力与对话能力
- 准确的API调用能力，可实现各类Agent

从模型到应用

从模型到应用示例图

书生·浦语大模型全链路开源体系

概览

书生·浦语大模型全链路开源体系概览

数据

书生·万卷 1.0 (截止2023年8月14日，总数据量为2TB)

文本数据：50亿个文档，数据量超1TB。
图像-文本数据：超2200万个文件，数据量超140GB。
视频数据：超1000个文件，数据量超900GB。

其特点如下：

多模态融合：万卷包含文本、图像和视频等多模态数据，涵盖科技、文学、媒体、教育和法律等
多个领域。该数据集对模型的知识内容、逻辑推理和泛化能力的提升有显著效果。
精细化处理：万卷经过语言筛选、文本提取、格式标准化、数据过滤和清洗(基于规则和模型)、多尺度去重和数据质量评估等精细数据处理环节,能够很好地适应后续模型训练的要求。
价值观对齐：在万卷的构建过程中，研究人员注重将数据内容与主流中国价值观进行对齐，并通
过算法和人工评估的结合提高语料库的纯净度。

预训练

在这里插入图片描述

微调

大语言模型的下游应用中，增量续训和有监督微调是经常会用到两种方式。

增量续训：使用场景:让基座模型学习到一些新知识,如某个垂类领域知识训练数据：文章、书籍、代码等
有监督微调：使用场景:让模型学会理解和遵循各种指令，或者注入少量领域知识训练数据：高
质量的对话、问答数据。

评测

国内外评测体系的整体态势
在这里插入图片描述

部署

在这里插入图片描述

智能体

大语言模型的局限性：

最新信息和知识的获取
回复的可靠性
数学计算
工具使用和交互

一个解决办法：智能体
在这里插入图片描述

补充资料

文章来源:https://blog.csdn.net/m0_55764641/article/details/135373657
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！