【会议报告】国内外大模型测评体系的比较研究_王蕴韬

发布时间:2023年12月26日

背景

  1. 大模型评测方法五花八门,缺乏权威

    • 任务单一

    • 互相嵌套

    • 难以复现

    • 数据泄露(互联网数据公开,相当于训练集都见过)

    • 语言偏科(中文不够)

  2. 大模型为AI基准测试带来新挑战

    • 大模型的能力:知识涌现、思维链、内容生成、提示工程、多模态信息处理
    • 传统单模态的测试不够

核心观点

  1. 模型评测内涵发生显著变化

    • 多项模型能力

    • 多项输入。多形式,多模态

  2. 国内外Benchmark体系相似,同大于异(76543)

  • 7大突出问题(主流测试题的不足)

    • 方法缺失:对小型生成式模型和长文本生成的评估方法缺失
    • 数据泄露:互联网爬取的数据集不能作为测试
    • 测试样本覆盖率
    • 测试样本与任务无关(过拟合,刷榜高的模型实用性差)
    • 数据集划分和表述改写
    • 随机数种子
    • 准确率与召回率权衡
  • 6大特点(主流测试题的特点)

    • 主流基准隐现

    • 新增考试题目

    • 评测数据公开

    • 评测方法隐匿

    • 总体差异不大

    • 空白领域相同

  • 均包含5类数据集(测试题库)

    • 预整理的数据集
    • 互联网爬取的评估集
    • 人工整理的评估集
    • 模糊化的数据集(用生成的方法扩充已有数据,比如图片中加雾,雨,雪)
    • 对话评估
  • 4种判别方式(结果判断)

    • 使用判别式输出评估生成式
    • 原子输出:将模式的输出拆分成更小、更具可度量性的组成部分,分别评估再加权组合
    • 基于模型的评估
    • 间接或基于分解的基于模型的评估
  • 均采用3种评测方法(问题设计)

    • 循环转换
    • 链式转换(中文提问-英文输出-翻译成中文。理解,翻译能力)
    • 受约束的输出

国内外benchmark现状分析

  • 重要性维度:3大评测基准使用最多
    • MMLU
    • GSM8K
    • C-Eval
  • 目标维度:7大类能力
  • 方法维度:4种测试方法,降低输出内容的评估成本
    • 自动化测试
    • 人工测试
    • zero/few shot
    • 大模型作为评测裁判
  • 指标维度:9类指标
文章来源:https://blog.csdn.net/weixin_43693967/article/details/135217921
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。