书生·浦语大模型全链路开源体系

发布时间:2024年01月05日

internLM介绍

书生·浦语大模型系列

  1. 轻量级:InternLM-7B 社区低成本可用最佳模型规模
    • 70亿模型参数,小巧轻便,便于部署
    • 10000亿训练token数据,信息全面,能力多维
    • 具备长语境能力,支持8k语境窗口长度
    • 具备通用工具调用能力,支持多种工具调用模板
  2. 中量级:InternLM-20B 商业场景可开发定制高精度较小模型规模
    • 200亿参数量,在模型能力与推理代价间取得平衡
    • 采用深而窄的结构,降低推理计算量但提高了推理能力
    • 4k训练语境长度,推理时可外推至16k

    全面领先相近量级的开源模型(包括Llama-33B、Llama2-13B以及国内主流的7B, 13B开源模型)
    以不足三分之一的参数量,达到Llama2-70B水平学科

  3. 重量级:InternLM-123B 通用大语言模型能力全面覆盖干亿模型规模
    • 1230亿模型参数,强大的性能
    • 具备极强的推理能力、全面的知识覆盖面、超强理解能力与对话能力
    • 准确的API调用能力,可实现各类Agent

从模型到应用

从模型到应用示例图

书生·浦语大模型全链路开源体系

概览

书生·浦语大模型全链路开源体系概览

数据

书生·万卷 1.0 (截止2023年8月14日,总数据量为2TB)

  • 文本数据:50亿个文档,数据量超1TB。
  • 图像-文本数据:超2200万个文件,数据量超140GB。
  • 视频数据:超1000个文件,数据量超900GB。

特点如下:

  • 多模态融合:万卷包含文本、图像和视频等多模态数据,涵盖科技、文学、媒体、教育和法律等
    多个领域。该数据集对模型的知识内容、逻辑推理和泛化能力的提升有显著效果。
  • 精细化处理:万卷经过语言筛选、文本提取、格式标准化、数据过滤和清洗(基于规则和模型)、多尺度去重和数据质量评估等精细数据处理环节,能够很好地适应后续模型训练的要求。
  • 价值观对齐:在万卷的构建过程中,研究人员注重将数据内容与主流中国价值观进行对齐,并通
    过算法和人工评估的结合提高语料库的纯净度。
    在这里插入图片描述

预训练

在这里插入图片描述

微调

大语言模型的下游应用中,增量续训有监督微调是经常会用到两种方式。

  • 增量续训:使用场景:让基座模型学习到一些新知识,如某个垂类领域知识训练数据:文章、书籍、代码等
  • 有监督微调:使用场景:让模型学会理解和遵循各种指令,或者注入少量领域知识训练数据:高
    质量的对话、问答数据。
    在这里插入图片描述

评测

国内外评测体系的整体态势
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

部署

在这里插入图片描述
在这里插入图片描述

智能体

大语言模型的局限性

  • 最新信息和知识的获取
  • 回复的可靠性
  • 数学计算
  • 工具使用和交互

一个解决办法:智能体
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

补充资料

文章来源:https://blog.csdn.net/m0_55764641/article/details/135373657
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。