本文作者提出第一个为 RAG pipeline 的每个组成部分量身定制的 LLM 判断的自动化 RAG 评估系统 ARES(Automated RAG Evaluation System)。与现有的 RAG 评估系统不同,ARES 通过利用 PPI(Prediction-powered inference)产生评分的置信区间,为其预测提供终极保证。
具体步骤如下:
利用 LM 从语料库中构建 question-answer 对。
定义了三个不同的分类模型(评委)来对三个分数进行分类,这三个模型都是微调后的轻量模型。
使用 PPI 对不同的 RAG system 进行排名,以提高基于模型的评估准确性,并为 RAG 评分提供统计置信区间。
本文主要是依靠 FLAN-T5 XXL 创建合成数据。为了过滤出低质量的查询,作者提出两种新颖的生成策略,每种策略生成相同数量的负样本。最终保证在评估上下文相关性和答案相关性时,正样本和负样本数量是一致的。
对于上下文相关性的负样本生成,作者随机抽取与给定合成查询无关的领域内(in-domain)段落。
对于答案忠实性和答案相关性的负样本生成,作者从其他段落中随机抽取综合生成(利用 FLAN-T5 XXL)的样本。
对于上下文相关性的负样本生成,作者随机从被认定为是黄金段落(gold passage)的文档中抽取领域内(in-domain)段落。对于一个文档中只有一个段落的数据集,作者使用 BM25 来检索 top10 的段落并从中采样获得上下文相关性的负样本。
对于答案忠实性和答案相关性的负样本生成,作者使用 prompt FLAN-T5 XXL。
作者利用生成的数据集来微调三个轻量级LLMs,分别从三个方面评估 RAG 系统。
上下文相关性:查询返回段落是否与提问内容相关?
答案忠实性:生成答案是否忠实于查询返回段落?或者是否包含幻觉或者推断超出返回段落以外的内容?
答案相关性:生成答案是否与查询和返回段落相关?
对于上述的每个方面,均是使用一个微调后带分类器的独立 LLM 来区分样本的正负性。
对于每个串联的 query-document-answer,每个评委均需要针对不同方面将结果分为正类或者负类。
微调时,作者加入了人类偏好验证集合来评估每个 epoch 的结果,等连续三个 epoch 都没有改善时停止微调。
原则上是可以计算三个指标的平均分来评判 RAG 系统的好坏,但是可能会存在一定程度的噪音。因为这分数是通过未标记的合成数据微调的LLM评委的预测。简单来说没有人工标记,可能会有误差。
另外一个方法是只使用人类偏好的验证集合来进行评估,判断每个 RAG 系统与人类注释的一致性。但是这个方法需要人为标注可能会非常耗时耗力。
ARES 将两者结合起来使用 PPI 来预测系统得分。PPI 是一种统计方法,通过利用对更大的一组未注释数据点的预测来收紧对一小组注释数据点(即人类偏好验证集)的预测的置信区间。PPI 可以利用标记数据点和 ARES 对未注释数据点的判断预测,为 RAG 系统的性能构建更严格的置信区间。
PPI 使用人类偏好验证集上的 LLM 判断来学习 rectifier function,使用较大的无注释数据集中的每个 ML 预测结果构建 ML 模型性能的置信集。然后,使用置信集为 ML 模型的性能的平均结果创建更严格的置信区间。并且 PPI 允许用选定的概率水平估计置信区间(本文中作者选取标准的 95% alpha 概率作为置信区间)。
如何评定正确排名和 ARES 排名的相关性,作者引入了 Kendall’s tau,这是一个在信息检索领域广泛并且流行的评判指标,允许开发者凭借经验评估排名系统。
concordant pairs 定义为排序中的两个序数,其中序列中较早的值低于序列中较晚的值。
Discordant pairs 定义为排序中的两个序数,其中序列中较早的值大于序列中较晚的值。
当使用少于100个数据点进行上下文相关性和答案相关性分类时,ARES 的 Kendall’s tau 值平均下降到0.75以下。作者在探索的更广泛的数据集上发现了相同的模式,无论查询、文档或答案类型如何。因此,作者建议使用具有足够的PPI人类偏好验证集的ARES(例如,大于150-200个数据点的集)。
ARES 中使用的 LLM 评委的可推广性对于在专业领域部署框架至关重要,尤其是在难以收集域内查询、文档和答案的领域。因此,作者在如下三个方面测试了 ARES 中使用的 LLM 评委受到跨领域偏移的影响:
改变查询类型,使用针对 NQ 进行微调的评委来评估 FEVER 数据集上的 RAG 系统。(例如,从问题切换为陈述)
改变文档类型,使用针对 NQ 进行微调的评委来评估 MultiRC 数据集上的 RAG 系统。(例如,从维基百科文章切换到新闻文章)
同时改变查询类型和文档类型,使用针对 NQ 进行微调的评委来评估 ReCoRD 数据集上的 RAG 系统。(例如,从基于维基百科的QA数据集切换到基于新闻文章的陈述数据集)
在表3中,可以发现 ARES 中使用的微调 LLM 评委在跨领域应用中证明是成功的。在所有设置中,发现 ARES 中的 LLM 评委具有很强的可推广性。即使 LLM 评委的准确性在跨领域应用中受到影响,PPI也有助于减轻准确性的损失,并仍然使 ARES 取得成功。
不过 LLM 评委在对领域进行更激烈的转变时无法概括:
切换语言(如英语到西班牙语、德语和其他语言)
从文本切换到代码(如问题+段落到编码功能+文档)
从检索文本切换到提取实体、网页或引文
ARES 依靠人工注释与 LLM 评委一起使用PPI。作者想测试GPT-4生成的标签是否可以完全取代人类偏好验证集,这样可以仅依靠少数样本示例来生成 PPI 所需的上下文相关性、答案忠实性和答案相关性的相关信息。
由于GPT-4标签的生成成本相对较低,作者为每个探索的数据集创建了500个标签。通过表4可以看到,在ARES中GPT-4生成的标签不如人类标签有用,导致Kendall’s tau 在大多数情况下下降0.05至0.3。