Neural Attention Model for Abstractive Text Summarization Using Linguistic Feature Space(2212)
摘要生成一个简短而简洁的摘要,描述源文本的主要思想。概括有两种形式:抽象概括和提取概括。提取式摘要从文本中选择重要的句子来形成摘要,而抽象式摘要通过添加新单词或短语来使用高级且更接近人类的解释来进行解释。
对于人类注释者来说,生成文档摘要既耗时又昂贵,因为它需要浏览长文档并撰写简短的摘要。
提出了一种用于文本摘要的自动特征丰富模型,该模型可以减少劳动量并通过使用提取和抽象方法生成快速摘要。功能丰富的提取器突出显示文本中的重要句子,并使用语言特征来增强结果。
然后将提取的摘要馈送到抽象器,以使用命名实体标签、词性标签和术语权重等特征进一步提供信息。
此外,引入损失函数来规范单词级和句子级注意力之间的不一致。所提出的两阶段网络在基准 CNN/DailyMail 数据集上取得了 37.76% 的 ROUGE 分数,优于早期的工作。
还进行人工评估,以衡量生成的摘要的全面性、简洁性和信息量。
总之,生成文本信息的紧凑版本,其中通常包含原始文档的重要信息。概括有两种类型:提取式概括和抽象式概括。在提取式摘要中,摘要完全由段落??组成;这是一种更简单的方法,因为从源文档复制数据可以确保语法准确性。另一方面,抽象不仅仅意味着仅仅选择几句话或几句话的概括。段落,还重新表述了文档的主要内容。该任务可以将长文本单词序列转换为包含信息内容的较短序列。大多数早期的摘要工作都集中在提取摘要[3]、[21]、[23]上。在抽象摘要[21]、[26]中,采用了复杂的机制来解释和生成原始文档中未见过的表达式。
自动文本摘要的实际应用有很多。它可以协助教育、研究、媒体监控、搜索引擎、问答系统、社交媒体分析和视频脚本编写。对于教育和媒体监控,自动摘要可以帮助我们把握文件的核心思想。可以通过收集与提取的总结答案相关的文档来改进问答系统的个人助理。视频脚本可以帮助人们根据视频的摘要标题选择所需的视频,而不是观看完整的长度。最近使用序列到序列模型将输入序列映射到相应的输出序列;该方法在语音识别 [5]、机器翻译 [1] 和视频字幕 [27] 方面取得了成功。类似地,基于注意力编码器-解码器的神经网络[1]被用于抽象概括。然而,这些模型最多只能重现不准确的事实细节,并且无法管理 OOV(词汇外)单词。迄今为止,现有文献中将详细信息输入DNN(深度神经网络)进行抽象概括的研究并不多,因此导致准确率不高。为了提高摘要文本的紧凑性,可以将附加信息与实际的词嵌入一起传递。在拟议的工作中,我们整合了多种文本特征,例如 POS(词性)标签、术语权重和命名实体。尽管机器翻译和抽象摘要有很多共同点,但它们不是同一任务。翻译是无损的,并且源和目标之间的机器翻译中存在强大的一对一单词级对齐。在抽象摘要中,目标不依赖于文档的长度,并且通常很短。此外,原始文档以有损方式压缩,以保留原始文档中最重要的内容。
总之,我们的贡献如下:
该研究的主要贡献是使用丰富的特征集进行文档摘要。所提出的特征集包含句子位置、术语权重、命名实体标签、POS 标签以及数字和专有名词的总数。特征数量的增加提高了所得摘要的全面性。为此,我们提出了提取和抽象摘要的统一模型。首先,我们通过使用提取摘要来处理句子级注意力。其次,通过使用抽象摘要,我们在单词级注意力上调整输出。该方法允许提取摘要来帮助抽象摘要,从而减轻伪造的词级注意力。该实验使用具有超过 30 万条新闻文章的 CNN/DailyMail 数据集 [21]。我们表明该方法的 ROUGE 得分为 37.76%,优于早期的工作。还进行了人工评估,以确保两阶段总结网络的重要性。
最近的大多数文本摘要工作都依赖于提取技术,其中句子和短语在源文档中被识别,并被复制为摘要[6]、[9]、[10]、[20]、[30]。有一些关于自动文本摘要系统的调查,使用注意力模型、数据集和评估方法来评估摘要的质量。
Jean 等人使用了神经网络。 [14] 和尹等人。 [34]其中句子被映射到向量中进行处理。纳拉帕蒂等人。 [21] 以及 Cheng 和 Lapata [3] 使用 RNN(循环神经网络)来创建文档的表示。纳拉扬等人。 [23]采用句子分类器,利用标题和图像标题等附加信息来选择句子。安永等人。 [33]结合图卷积网络和 RNN 来计算每个句子的重要性。尽管一些提取摘要模型取得了良好的 ROUGE 分数,但它们通常存在可读性问题。
在最近的神经模型之前,抽象文档摘要尚未受到足够的关注。 Jing[15]首次通过删除句子中不重要的部分来创建摘要。抽象概括任务在 DUC-2003 和 2004 竞赛中被标准化。 TOPIARY [35] 是 DUC-2004 任务的一项成就;它使用各种语言驱动的压缩技术和检测算法,将从文档中提取的关键字附加到输出中。 Cheung 和 Penn [4] 使用依存树创建了句子融合。
Rush 等人提出了一种应用于抽象文本摘要的现代神经网络。 [25],其中卷积模型用于对输入文本进行编码。为了生成摘要,采用了注意力前馈神经网络。维尼亚尔斯等人。 [28]引入了指针网络,它是基于Bahdanau等人的软注意力分配方法的序列到序列模型。 [2]。指针网络还创建了语言建模、神经机器翻译 [11] 和摘要 [16]、[21] 的混合方法。拉什等人。 [25]是这项工作的扩展,它对编码器使用相同的卷积方法,但解码器被替换为RNN以实现改进的性能。胡等人。 [13]通过使用RNN进行文本摘要来展示中文数据集的良好性能。
对于源的提取文本摘要,Cheng 和 Lapata [3] 使用了基于 RNN 的编码器-解码器。 Nallapati 等人使用了序列到序列模型。 [21] 使用 CNN/DailyMail 数据集评估了这项工作。 Ranzato 等人用评估矩阵(例如 ROUGE 和 BLEU)取代了传统的训练矩阵。 [24]。管理 OOV 单词 请参阅等人。 [26] 和金等人。 [16]在他们想要的模型中采用了指针网络。为了减少摘要中重复的短语,See 等人提出了一种不同的模型。 [26]。亚达夫等人。 [7]使用带有注意层的强化学习作为基础模型。 Li 等人使用了生成对抗网络。 [17]通过人工评估获得高分。 Bahdanau等人提出了注意力机制。 [1]。对于文档分类,Yang 等人提出了分层注意机制。 [32]。
纳拉帕蒂等人。 [21]结合了单词和句子级别的注意力,其中句子注意力是动态的。自动特征工程在开发特征选择模型方面取得了很多进展,其中包括元学习[36]、[37]、[38],又名学习学习。它关注的是即使数据稀疏,如何学习和适应。
在这项研究中,我们提出了一种用于提取摘要和抽象摘要的端到端模型。编码后的单词具有丰富的特征,保留了每个单词的语言信息。单词的这些语言特征被馈送到提取器和抽象器。此外,该模型结合了来自提取模型的句子级摘要和来自抽象模型的单词级摘要。先前的研究者已经采用了不同注意力的概念,但对特征语言学的注意力尚未合并为统一模型。在具有丰富特征的单词编码的顺序模型中使用单词和句子级注意力的优点是一种全面总结的方法。
在本文中,我们提出了通过结合提取器和抽象器模型的优势来生成全面摘要的方法。包含单词语言信息的单词嵌入被馈送到提取器和抽象器模型的神经网络。合并的单词特征包括句子位置、数字数量、POS标签、NE标签、术语权重和专有名词数量。除此之外,注意力层分别通过使用句子和单词注意力参数来突出显示提取器和抽象器模型最重要的信息。所提出的方法结合了句子和单词的注意力权重,以便有效地计算损失函数。两阶段模型可以在单个网络中进行提取和抽象摘要。所提出的网络使用 CNN/DailyMail 数据集进行训练和测试。它是通过计算 ROUGE 分数以及人类受试者来评估的。结果表明,该方法优于现有技术,ROUGE 得分为 37.76%,具有较高的综合性和信息量。