Turkish abstractive text summarization using pretrained sequence-to-sequence models(2110)
网络上可用文档数量的巨大增加使得查找相关信息变成了一项具有挑战性、乏味且耗时的活动。因此,自动文本摘要已成为一个重要的研究领域,受到了研究人员的极大关注。最近,随着深度学习的进步,使用序列到序列(Seq2Seq)模型的神经抽象文本摘要越来越受欢迎。这些模型有许多改进,例如使用预训练的语言模型(例如 GPT、BERT 和 XLM)和预训练的 Seq2Seq 模型(例如 BART 和 T5)。这些改进解决了神经摘要中的某些缺点,并改进了显着性、流畅性和语义等挑战,从而能够生成更高质量的摘要。不幸的是,这些研究尝试大多局限于英语。最近发布了单语言 BERT 模型和多语言预训练 Seq2Seq 模型,为在土耳其语等资源匮乏的语言中利用此类最先进的模型提供了机会。在本研究中,我们利用预训练的 Seq2Seq 模型,在两个大型土耳其数据集 TR-News 和 MLSum 上获得了最先进的结果,用于文本摘要任务。然后,我们利用数据集中的标题信息,并为两个数据集上的标题生成任务建立硬基线。我们表明,模型的输入对于此类任务的成功非常重要。此外,我们还提供了对模型的广泛分析,包括跨数据集评估、各种文本生成选项以及土耳其语 ROUGE 评估中预处理的效果。结果表明,单语言 BERT 模型在所有数据集的所有任务上都优于多语言 BERT 模型。最后,提供了对生成的摘要和模型标题的定性评估。
随着网络的出现,通过网站、新闻、博客、书籍、科学论文和社交媒体等来源在线提供的文档数量呈指数级增长。与此同时,由于内容重复且不相关,用户越来越难以找到自己感兴趣的信息。此外,理解所有这些来源所需的时间和精力是巨大的。由于人类通过手动理解如此大量的信息是不切实际的,因此需要自动消化和提取所有这些信息的本质。在这方面,文本摘要已成为过去几十年的必然必然和非常热门的研究领域。
文本摘要旨在从长文档中自动生成简洁的文本,能够以流畅且显着的方式描述最重要的信息(Luhn 1958;Edmundson 1969)。自动文本摘要有两种主要方法:抽取式文本摘要(Mihalcea and Tarau 2004;Nallapati, Zhai, and Zhou 2017)和抽象文本摘要(Rush, Chopra, and Weston 2015;See,Liu,and Manning 2017;Zhanget al) .2020)。提取文本摘要通过从输入文本中选择最相关的句子或短语来生成摘要,而不反映任何更改。另一方面,抽象文本摘要是一项更具挑战性的任务,其目的是通过利用复杂的自然语言理解和生成能力来生成类似人类的摘要。
随着深度学习的进步,抽象文本摘要变得更加流行。最近,具有编码器-解码器架构的序列到序列(Seq2Seq)模型占据了该领域的主导地位。编码器-解码器网络的底层组件已从基于 LSTM(Hochreiter 和 Schmidhuber 1997)的模型转变为基于 Transformer(Vaswani 等人,2017)的模型。语言模型预训练(Radford 等人,2018 年;Devlin 等人,2019 年)在众多自然语言处理 (NLP) 任务中取得了最先进的成果,特别是在自然语言理解方面。这些预训练的语言模型也被用于抽象文本摘要(Liu and Lapata 2019)。后来,研究利用 Seq2Seq 模型的预训练(Dong et al. 2019;Song et al. 2019;Rothe, Narayan, and Severyn 2020;Lewis et al. 2020;Raffel et al. 2020)来进一步改进语言生成任务。因此,预训练 Seq2Seq 模型,尤其是在大规模数据集上的预训练,表现得非常好,在神经抽象摘要方面达到了最先进的结果(Zhang et al. 2020;Qiet al. 2020)。
不幸的是,所有这些研究尝试大多仅限于英语。此外,预训练此类模型需要大量数据和计算能力,这些都是限制研究的因素。然而,BERT(Devlin et al. 2019)模型的多语言版本和两个多语言预训练的 Seq2Seq 模型(mT5 Xu et al. 2021 和 mBART Liu et al. 2020)最近已经发布。这为资源匮乏语言的各个研究领域带来了许多可能性。此外,社区已经对许多不同语言的单语 BERT 模型进行了预训练,其中包括 BERTurk (Schweter 2020),一个单语土耳其语 BERT 模型。
土耳其语文本摘要研究主要基于提取方法。很少有研究试图解决土耳其语的抽象概括任务(Scialom et al. 2020;Baykara and Güng?r 2022)。这些作品都没有使用预训练的 Seq2Seq 模型,而这些模型已被证明可以达到最先进的英语结果。此外,标题生成也被认为是文本摘要任务,因为主要目标是以标题的形式输出简洁的摘要(Rush et al. 2015)。然而,土耳其语标题生成研究的数量非常有限(Karako? 和 Y?lmaz 2019)。目前有两个大型数据集 TR-News (Baykara and Güng?r 2022) 和 MLSum (Scialom et al. 2020) 适合土耳其语抽象文本摘要。在本研究中,我们的目标是利用这些预训练模型在 TR-News 和 MLSum 数据集上执行抽象文本摘要和标题生成任务,并对所获得的结果进行详细分析。
? RQ1:预训练的序列到序列模型如何执行土耳其语抽象文本摘要和标题生成任务?
? RQ2:在BERT2BERT模型架构上,单语BERT模型是否比多语BERT模型获得更好的结果?
? RQ3:组合具有相似特征的数据集是否可以提高抽象文本摘要和标题生成中的模型性能?
? RQ4:在一个数据集上训练的模型在具有相似特征的其他数据集上表现如何?
? RQ5:标题生成模型的输入对模型性能的影响有多大?
总之,我们的贡献如下:
我们证明,预训练的序列到序列模型在 TRNews 和 MLSum 数据集上达到了最先进的水平,可用于摘要生成和标题生成任务。 ? 我们进行了第一项利用两个数据集标题的研究,并为标题生成任务提供全面且强大的基线。 ? 我们证明单语言 BERT 模型在 BERT2BERT 架构上优于多语言 BERT 模型。 ? 我们观察到,结合两个数据集可以为文本摘要和标题生成任务产生更好的模型。 ? 我们对这两项任务进行了跨数据集评估,结果表明,与在 MLSum 上训练的模型相比,在 TR-News 上训练的模型更加稳健。 ? 我们测量了为标题生成任务的Seq2Seq 模型提供不同输入(引导句子与摘要)的效率,并证明与引导句子相比,摘要被证明是更好的选择。 ? 我们展示了预处理对 ROUGE 计算的影响程度,这对于土耳其语等粘着语言尤其重要。
近年来,NLP 中的迁移学习已被证明非常有效,并在多种任务中取得了最先进的结果。预训练语言模型的概念能够通过各种预训练目标学习与任务无关的知识,然后将这些知识转移到下游任务,这种概念在自然语言理解方面特别成功(Radford 等人,2018 年;Devlin 等人,2019 年;Yanget)等2019)。然而,需要自然语言理解和自然语言生成的任务(例如机器翻译和文本摘要)无法从这些预训练的编码器模型中受益,从而导致预训练的序列到序列模型。
Song 等人(2019)提出了 MASS,一种屏蔽的 Seq2Seq 生成模型,当提供剩余部分时,它能够重现句子的部分内容。 UniLM(Dong et al. 2019)对三种类型的语言建模目标进行同步训练:单向、双向和序列到序列。在 BART 中,Lewis 等人(2020)遵循各种去噪目标,首先破坏输入文本,然后使用自动编码器重建它。 T5(Raffel et al. 2020)引入了一种通用的文本到文本框架,能够仅使用文本作为输入和输出来处理各种 NLP 任务,并且在各种监督下进行了预训练以及无监督目标,包括总结。最后,发布了 T5 和 BART 的多语言版本,分别为 mT5 (Xue et al. 2021) 和 mBART (Liu et al. 2020)。
抽象文本摘要主要被视为序列到序列问题,并且编码器-解码器网络经常用于解决该问题。 Rush 等人(2015)是最早将使用神经网络语言模型(NNLM)的编码器-解码器架构应用于标题生成任务(作为抽象摘要问题的一部分)的研究之一。然后,Chopra、Auli 和 Rush(2016)用循环神经网络(RNN)取代了 NNLM。 Nallapati 等人(2016)介绍了几种新颖的模型,包括具有注意力机制的基于双向 LSTM 的编码器-解码器、具有丰富特征的编码器的模型、切换指针生成器模型以及能够捕获文档结构。此外,将 CNN/每日邮报数据集(Hermann 等人,2015)转换为文本摘要格式也是他们的贡献之一。指针生成器模型得到了增强,允许它从源文档复制单词,并添加了覆盖机制来解决单词重复问题(参见 et al. 2017)。后来,各种强化学习模型被应用于神经抽象概括(?eliky?lmaz et al. 2018;Paulus, Xiong, and Socher 2018)。卷积神经网络 (CNN) 与 XSum 数据集上的主题感知嵌入结合使用,以更好地捕捉文档的主题(Narayan、Cohen 和 Lapata 2018a)。采用预训练语言模型 BERT 作为编码器组件,以提高语言理解能力(Liu 和 Lapata 2019)。
最近,预训练的 Seq2Seq 模型在神经抽象概括方面表现出非常好的性能(Lewis et al. 2020;Raffelet al. 2020)。 PEGASUS(Zhang et al. 2020)专门针对抽象文本摘要任务进行了预训练,并利用从文档中屏蔽整个句子并生成这些间隙句子作为预训练目标。 ProphetNet (Qi et al. 2020) 引入了一种新颖的自我监督目标,称为未来 n-gram 预测和 n-stream 自注意力机制。与优化提前一步预测的传统 Seq2Seq 模型不同,它会提前优化 n 步,在每个时间步根据先前的上下文标记同时预测下一个 n 个标记。
在本文中,我们详细分析了预训练的序列到序列模型在文本摘要和标题生成这两个任务上的性能。 mT5 模型在 TR-News 和 MLSum (TR) 数据集上的两项任务的 ROUGE 分数均达到了最佳结果。单语言 BERTurk 模型也表现出接近 mT5 模型的性能,并产生了更多新颖的摘要。我们为摘要生成任务和土耳其语标题生成任务的数据集建立了强大的基线。对标题生成任务的进一步分析表明,模型的输入对任务的结果影响很大。与提供引导句子作为输入相比,提供新闻文章摘要作为模型的输入显示出更好的 ROUGE 分数。此外,我们通过组合 TR-News 和 MLSum (TR) 创建了一个更大的数据集 (Combined-TR),因为两者具有相似的特性统计数据和内容方面的特点。在组合 TR 上训练的模型在文本摘要和标题生成任务上都显示出性能提升。最后,单语言 BERT 模型在这两项任务上均优于 BERT2BERT 模型架构中的多语言 BERT 模型。在未来的工作中,我们计划使用不同语言(特别是粘着语言)的摘要数据集来扩展这项研究。如果有足够的计算资源,未来可能会从头开始为资源匮乏的语言预训练单语言 Seq2Seq 模型,并将结果与??多语言预训练的 Seq2Seq 模型进行比较。此外,可以改变预训练目标以考虑此类语言的粘合性质。