为什么需要评测?模型选型 模型能力提升 真实应用场景效果评测
我们需要测什么?知识推理语言 长文本智能体多轮对话 情感认知价值观
怎么样测试大语言模型?自动化客观评测 人机交互评测 基于大模型的大模型评测
普通用户: 了解诶模型的特色能力和实际效果
开发者:监控模型能力变化,指导优化模型生产
管理机构:减少大模型带来的社会风险
产业界:找出最适合产业应用的模型,赋能真是场景
客观评测
主观评测
提示词工程:问题的不同问法
主流大模型评测框架
OpenCompass能力框架
Meta官方推荐
平台架构
100+数据集
任意模型
任务切分
多种输出方案
前沿探索MMBench
垂直领域 ?法律 医疗
挑战