A Hierarchical Representation Model Based on Longformer and Transformer for Extractive Summarization(22)
自动文本摘要是一种在保留原文主要思想的同时对文档进行压缩的方法,包括抽取式摘要和抽象式摘要。提取文本摘要从原始文档中提取重要句子作为摘要。文档表示方法对于生成摘要的质量至关重要。为了有效地表示文档,我们提出了一种用于提取摘要的分层文档表示模型 Long-Trans-Extr,该模型使用 Longformer 作为句子编码器,使用 Transformer 作为文档编码器。 Longformer 作为句子编码器的优点是,该模型可以输入多达 4096 个 token 的长文档,并增加相对少量的计算。所提出的模型 Long-Trans-Extr 在三个基准数据集上进行评估:CNN(有线电视新闻网)、DailyMail 以及 CNN/DailyMail 组合。它在 CNN/DailyMail 上达到 43.78 (Rouge-1) 和 39.71 (Rouge-L),在 CNN 数据集上达到 33.75 (Rouge-1)、13.11 (Rouge-2) 和 30.44 (Rouge-L)。它们是非常有竞争力的结果,此外,它们表明我们的模型在长文档(例如 CNN 语料库)上具有更好的性能。
自1958年Luhn[1]开始自动文摘研究以来,该领域取得了巨大的成就。文本摘要可以分为两类:即抽象摘要和提取摘要。抽象摘要[2]在理解原文语义的基础上提炼其思想和概念,实现语义重构。尽管更类似于人类的逻辑,但由于自然语言生成技术的限制,抽象摘要仍然面临着对原文进行连贯、语法和概括的摘要的巨大挑战。提取式摘要方法从文档中提取关键句子以生成摘要。首先对输入文档进行编码,然后计算文档中句子的分数。根据得分对句子进行排序,选择得分高的句子形成摘要。
这项研究的重点是提取摘要,因为它不仅可以在新闻文章中生成语义和语法正确的句子,而且计算速度比抽象摘要更快。目前,生成式摘要方法和提取式摘要方法在处理长文本时都存在一些困难,这是由编码器网络的计算复杂性造成的。最近的研究表明,Transformer [3] 在自然语言处理领域无论是实验结果还是计算复杂度都优于 LSTM [4]。然而,即使具有并行计算能力的Transformer也无法处理长文本,导致文本摘要方法仅限于短文本。对于长文本,通常有两种处理方法:(1)直接丢弃超出的部分。这种方法实现起来比较简单,但是对最终总结的质量影响很大。 (2) 将长文本分为几个较短的文本跨度并一一处理它们。这种处理的结果是,不同的文本跨度无法相互交互,因此,大量信息不可避免地丢失。当然,还可以添加其他机制来增强文本跨度之间的交互,但这些新机制实现起来很复杂,通常是特定于任务的,并且不通用。
总之,我们的贡献如下:
(1)本研究提出了分层文档表示方法,采用Longformer作为句子编码器,Transformer作为文档编码器对输入文本进行编码。与 CNN(卷积神经网络)或 LSTM(长短期记忆)作为编码器不同[5-7],由于采用 Longformer 作为句子编码器,该模型可以处理长文档,最多 4096 个标记,并且使得直接对长文本进行编码成为可能。
(2)编码器同时采用全局注意力和局部注意力[8],这不仅保证了关键令牌不丢失全局信息,而且降低了计算复杂度。
(3)所提出的分层模型在CNN/DailyMail数据集[10]上实现了最好的Rouge-1和Rouge-L[9],并且实现了最先进的Rouge-1、Rouge2和Rouge-L在长文本数据集 CNN 上。最好的 Rouge-1 和 Rouge-L 是在短文本数据集 DailyMail 上实现的。实验结果表明,Longformer 作为句子编码器,在长文档上具有良好的性能。
自动文本摘要包括抽象摘要和提取摘要。近年来,深度学习技术为文摘研究提供了新的思路。在相关文献中,Cho 等人。 [11] 和 Sutskever 等人。 [12]提出了广泛研究的序列到序列(seq2seq)模型,该模型由编码器和解码器组成。其基本思想是利用输入序列的全局信息来推断相应的输出序列。拉什等人。 [13]首先将上述模型应用于文本摘要任务。
在提取摘要中,一个重要的问题是如何从原始文档中提取重要的句子。一些研究基于统计方法[14,15]。随着深度神经网络在自然语言处理中的成功,抽取式摘要取得了比传统机器学习更好的效果。基于神经网络的提取摘要模型的核心是编码器-解码器结构。对于编码器,采用CNN、RNN(循环神经网络)和LSTM来捕获文档的上下文信息[16-18]。然而,使用上述模型,通常很难捕获长距离依赖关系,特别是在长文档的情况下。随着BERT的成功,变压器被发现可以有效地捕获输入的序列信息。 Liu和Lapata [19]提出了一种基于BERT的句子级编码器,它能够对文档进行编码并获得其句子的表示。然后,他们使用 Transformer 对这些句子表示进行编码。张等人。 [20]提出了用于文档编码的HIerachical BERT(HIBERT),并使用未标记的数据对其进行了预训练。首先,他们将未标记数据的 HIBERT 应用于句子预测任务,然后对句子进行分类。王等人。 [21]提出了基于GNN(图神经网络)的HSG,添加细粒度语义节点来辅助句子提取。对于解码器,通常使用多层感知器(MLP)或LSTM来输出句子的分数。
由于神经网络的复杂性,上述方法在处理长文档时存在困难。为了降低复杂性,研究人员提出了不同的方法:Wu 和 Hu [22] 以及 Al-Sabahi 等人。 [16]限制文档的最大句子长度和句子数量;钟等人。 [23] 和纳拉扬等人。 [17]分别截取文档的前512个和600个单词作为输入。张等人。 [20]限制句子的长度并将长文档分成短文档。让模型拥有更长的输入序列最直接有效的方法就是降低复杂度网络的。研究人员已经进行了一些研究[24,25]。贝尔塔吉等人。 [8]提出了Longformer网络。 Longformer从Transformer的注意力机制出发,改进了三种注意力模式,以降低网络的复杂度:(1)滑动窗口注意力; (2)扩大窗口注意力; (3)滑动窗口注意力+全局注意力。作者在问答系统、共指分析等任务上的实验表明,“局部注意力+全局注意力”模型可以在降低计算复杂度的前提下取得良好的性能。与 Transformer 相比,Longformer 的计算复杂度从 O(n2) 降低到 O(n),其中 n 是输入序列的长度。受上述工作的启发,本文采用 Longformer 在提取摘要模型中对文本进行编码,以接受更长的文本输入
介绍了CNN
在本研究中,我们提出了一种 Long-Trans-Extr 提取摘要模型,该模型使用 Longformer 作为句子编码器,Transformer 作为文档编码器,最后使用 MLP 分类器来决定是否应该提取文档中的句子或不是。该模型解决了以往模型难以处理长文档的问题。它使句子表示和文档表示能够注意到更长的文本信息,而无需增加太多的计算和内存。实验结果表明,在相同的解码器条件下,我们的模型在 CNN/DailyMail 数据集上优于其他模型,并且在长 CNN 数据集上取得了最好的结果。