【会议报告】国内外大模型测评体系的比较研究_王蕴韬
发布时间:2023年12月26日
背景
-
大模型评测方法五花八门,缺乏权威
-
任务单一
-
互相嵌套
-
难以复现
-
数据泄露(互联网数据公开,相当于训练集都见过)
-
语言偏科(中文不够)
-
大模型为AI基准测试带来新挑战
- 大模型的能力:知识涌现、思维链、内容生成、提示工程、多模态信息处理
- 传统单模态的测试不够
核心观点
-
模型评测内涵发生显著变化
-
国内外Benchmark体系相似,同大于异(76543)
-
7大突出问题(主流测试题的不足)
- 方法缺失:对小型生成式模型和长文本生成的评估方法缺失
- 数据泄露:互联网爬取的数据集不能作为测试
- 测试样本覆盖率
- 测试样本与任务无关(过拟合,刷榜高的模型实用性差)
- 数据集划分和表述改写
- 随机数种子
- 准确率与召回率权衡
-
6大特点(主流测试题的特点)
-
主流基准隐现
-
新增考试题目
-
评测数据公开
-
评测方法隐匿
-
总体差异不大
-
空白领域相同
-
均包含5类数据集(测试题库)
- 预整理的数据集
- 互联网爬取的评估集
- 人工整理的评估集
- 模糊化的数据集(用生成的方法扩充已有数据,比如图片中加雾,雨,雪)
- 对话评估
-
4种判别方式(结果判断)
- 使用判别式输出评估生成式
- 原子输出:将模式的输出拆分成更小、更具可度量性的组成部分,分别评估再加权组合
- 基于模型的评估
- 间接或基于分解的基于模型的评估
-
均采用3种评测方法(问题设计)
- 循环转换
- 链式转换(中文提问-英文输出-翻译成中文。理解,翻译能力)
- 受约束的输出
国内外benchmark现状分析
- 重要性维度:3大评测基准使用最多
- 目标维度:7大类能力
- 方法维度:4种测试方法,降低输出内容的评估成本
- 自动化测试
- 人工测试
- zero/few shot
- 大模型作为评测裁判
- 指标维度:9类指标
文章来源:https://blog.csdn.net/weixin_43693967/article/details/135217921
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:chenni525@qq.com进行投诉反馈,一经查实,立即删除!