第六节课 OpenCompass 大模型评测(笔记)

发布时间:2024年01月24日

一、关于评测的三个问题?

1.为什么需要评测?

  • 模型选型
  • 模型能力提升
  • 真是应用场景效果评测

2.我们需要测什么?

  • 知识、推理、语言
  • 长文本、智能体、多轮对话
  • 情感、认知、价值观

3.怎么样测试大语言模型

  • 自动化客观评测
  • 人机交互评测
  • 基于大模型的大模型评测

二、我们为什么需要评测?

建立在公平的、全面的统一框架下

可以知道模型的能力边界

三、我们需要评测什么?

四、如何评测大语言模型

1.根据模型

  • 基座模型
  • 对话模型(经过指令微调的模型)

2.根据评测

  • 客观评测(问答题、多选题、判断题/分类题/...)
  • 主观评测(人类评价、模型评价)

3.提示词工程

?

五、主流大模型评测框架

六、OpenCompass 能力框架

Meta官方推荐,唯一由国内开发的大模型评测体系,其他三个分别是HuggingFace、Stanford和Google退出的测评体系。

架构:

OpenCompass会将评测请求切分为多个独立执行的任务,从而最大化利用计算资源。

七、OpenCompass前沿探索

  • 多模态(基于感知与推理将评估维度逐级细分)
  • 法律领域(三维认知维度:法律知识理解、法律知识记忆、法律知识应用)
  • 医疗领域(多来源基准评估维度)

八、大模型评测领域的挑战

  • 缺少高质量中文评测集
  • 难以准确提取答案
  • 能力维度不足
  • 测试集混入训练集
  • 测试标准各异
  • 人工测试成本高昂

文章来源:https://blog.csdn.net/2301_80618119/article/details/135721550
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。