大模型学习之书生·浦语大模型6——基于OpenCompass大模型评测

发布时间:2024年01月22日

在这里插入图片描述

基于OpenCompass大模型评测

关于评测的三个问题Why/What/How

在这里插入图片描述

Why

在这里插入图片描述
在这里插入图片描述

What

在这里插入图片描述
在这里插入图片描述
有许多任务评测,包括垂直领域

How

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

包含客观评测和主观评测,其中主观评测分人工和模型来评估。

提示词工程

在这里插入图片描述

主流评测框架

在这里插入图片描述

OpenCompass 能力框架

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 模型层
  • 能力层
  • 方法层
  • 工具层

在这里插入图片描述
支持丰富的模型

在这里插入图片描述
评测流水线设计,能切分多个独立执行的任务,最大化利用计算资源。
在这里插入图片描述
大模型能力对比结果输出

前言探索
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
探索性方向涵盖:

  • 多模态
  • 法律
  • 医生

挑战

在这里插入图片描述

实践

创建开发环境和准备数据集

在这里插入图片描述
查看支持的数据集:
在这里插入图片描述

启动评测

客观评测

主要是run.py代码文件
在这里插入图片描述

  • datasets:指定数据集
  • hf-path:模型文件
  • tokenizer-path:tokenizer路径
  • max-seq-len:模型读入的最大长度
  • max-out-len:模型输出的最大长度,客观题设置一般较小
  • –debug:debug模式,打印出所有的过程
    在这里插入图片描述
    在这里插入图片描述
主观评测

主要是eval_sbujective_alignbench.py文件修改,需要注意modelmax_out_len等处的修改。
在这里插入图片描述

文章来源:https://blog.csdn.net/uncle_ll/article/details/135727570
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。