第六节课 OpenCompass 大模型评测(笔记)
发布时间:2024年01月24日
一、关于评测的三个问题?
1.为什么需要评测?
2.我们需要测什么?
- 知识、推理、语言
- 长文本、智能体、多轮对话
- 情感、认知、价值观
3.怎么样测试大语言模型
二、我们为什么需要评测?
建立在公平的、全面的统一框架下
可以知道模型的能力边界
三、我们需要评测什么?
四、如何评测大语言模型
1.根据模型
2.根据评测
- 客观评测(问答题、多选题、判断题/分类题/...)
- 主观评测(人类评价、模型评价)
3.提示词工程
?
五、主流大模型评测框架
六、OpenCompass 能力框架
Meta官方推荐,唯一由国内开发的大模型评测体系,其他三个分别是HuggingFace、Stanford和Google退出的测评体系。
架构:
OpenCompass会将评测请求切分为多个独立执行的任务,从而最大化利用计算资源。
七、OpenCompass前沿探索
- 多模态(基于感知与推理将评估维度逐级细分)
- 法律领域(三维认知维度:法律知识理解、法律知识记忆、法律知识应用)
- 医疗领域(多来源基准评估维度)
八、大模型评测领域的挑战
- 缺少高质量中文评测集
- 难以准确提取答案
- 能力维度不足
- 测试集混入训练集
- 测试标准各异
- 人工测试成本高昂
文章来源:https://blog.csdn.net/2301_80618119/article/details/135721550
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:chenni525@qq.com进行投诉反馈,一经查实,立即删除!