有许多任务评测,包括垂直领域
包含客观评测和主观评测,其中主观评测分人工和模型来评估。
支持丰富的模型
评测流水线设计,能切分多个独立执行的任务,最大化利用计算资源。 大模型能力对比结果输出
前言探索
探索性方向涵盖:
查看支持的数据集:
主要是run.py代码文件
run.py
主要是eval_sbujective_alignbench.py文件修改,需要注意model,max_out_len等处的修改。
eval_sbujective_alignbench.py
model
max_out_len