【书生·浦语】大模型实战营——第六课笔记

发布时间:2024年01月21日

视频链接:https://www.bilibili.com/video/BV1Gg4y1U7uc/?vd_source=5d94ee72ede352cb2dfc19e4694f7622
教程文档:https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md
仓库:https://github.com/open-compass/opencompass

关于评测的三个问题

在这里插入图片描述
1、为什么需要评测?
在这里插入图片描述

2、需要测什么?
在这里插入图片描述

3、怎么测?
在这里插入图片描述
客观评测
在这里插入图片描述
有很多东西是客观评测评测不了的,因此只能使用主观评测的方式。
在这里插入图片描述

提示词工程

在这里插入图片描述
如果只是换了一个prompt,模型就回答错了。说明模型对prompt非常敏感,鲁棒性还不够好。

主流大模型评测框架

在这里插入图片描述

OpenCompass能力框架

在这里插入图片描述
OpenCompass是唯一一个由meta官方推荐的国内开发的大模型评测体系
在这里插入图片描述

OpenCompass开源评测平台架构

在这里插入图片描述

OpenCompass评测流水线设计

在这里插入图片描述
进行了推理优化,对评测任务进行了切分。

目前还在探索多模态能力的评测
在这里插入图片描述

同时也在探索垂直领域的评测
法律领域
在这里插入图片描述
医疗领域
在这里插入图片描述

大模型评测领域的挑战

在这里插入图片描述

文章来源:https://blog.csdn.net/m0_50123831/article/details/135727188
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。