LLM论文：ALCE （Enabling Large Language Models to Generate Text with Citations）

发布时间：2024年01月15日

这是一篇RAG领域的文章，原文在这：https://aclanthology.org/2023.emnlp-main.398.pdf

时间	[Submitted on 24 May 2023 (v1), last revised 31 Oct 2023 (this version, v2)]
背景	LLM在信息搜索、生成带引用的文本时存在幻觉问题，即事实准确性有待提升，而且用户难以验证准确性。
现有工作的不足	人工评估或商用搜索引擎，难以复现和比较不同模型
解决	提出Automatic LLM Citation Evalutation 自动化评估模型检索生成能力
创新点	1. 评估长文本生成 2. 自动评估引用质量 3. 允许为一个陈述引用多篇文章

具体工作内容：

数据集

有三个数据集，分别是

ALCE评估模型：

三方面评估

流畅度——MAUVE (Pillutla et al., 2021)
正确性——根据数据集特点，定制了三种评估方式，主要使用了召回率，正确率
引用质量——根据数据集特点，定制了三种评估方式，主要使用了召回率，正确率

检索生成方式

vanilla：提供模型可能包含答案的文章，写提示词告诉他要正确地引用
summ/snippet: 不提供完整的文章而是概要版或某一段，为了减少信息损失，还结合了INTERACT，模型可以选择是否去看一个浓缩版对应的完整的文章
inlinesearch：不提供检索结果，允许模型调用搜索
closebook：不提供外部文章，让模型闭卷给出答案。

文章来源:https://blog.csdn.net/major_in_data_/article/details/135581797
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！