NLP论文阅读记录 - 2022 | WOS 数据驱动的英文文本摘要抽取模型的构建与应用

发布时间:2024年01月15日


前言

在这里插入图片描述

Construction and Application of a Data-Driven Abstract Extraction Model for English Text(2204)

0、论文摘要

本文以单个英文文本为研究对象,采用数据驱动的方法研究文本摘要的自动提取方法。 +is论文以单个文本为研究对象,建立文章句子之间的连接关系,提出一种基于图模型和主题模型的文本摘要自动提取方法。 +e方法结合文本图模型、复杂网络理论和LDA主题模型构建句子综合评分函数来计算文本单句权重,并将文本阈值内的句子按降序输出作为文本摘要。 +e算法提高了文本摘要的可读性,同时为文本摘要提供了足够的信息。
在本文中,我们提出了一种基于神经主题模型的基于 BERT 的主题感知文本摘要模型。 +e方法利用神经主题模型编码的潜在主题嵌入表示与BERT的嵌入表示相匹配来指导主题生成,以满足文本语义表示的要求,并在端到端中联合探索主题推理和摘要生成。通过变压器架构以最终方式捕获语义特征,同时通过自我关注机制对远程依赖关系进行建模。
在本文中,我们提出了基于提取和生成算法的预训练模型的改进,使它们增强了全局信息记忆。结合两种算法的优点,提出了一种新的联合模型,使得能够生成与原始主题更加一致的摘要,并且对于均匀分布的文章信息具有降低的重复率。对多个数据集进行了对比实验,构建了小型均匀分布的私有数据集。在多次对比实验中,评价指标提高了高达2.5个百分点,证明了该方法的有效性,并构建了自动摘要生成原型系统来验证结果。

一、Introduction

1.1目标问题

+文本的价值不在于静态数据,而在于文本理解和传递所产生的数据和信息的价值。近年来,对大量文本的自动化处理而不是手动注释的需求不断增长,这迫使需要对机器进行训练来学习人类如何处理文本和理解通信[1]。自然语言处理的存在是为了让机器能够更好地模仿人类对自然语言的处理,能够像人脑一样智能地执行自动语音对话、自动文本编写和其他大数据任务等任务。在这个劳动力成本极其昂贵的大数据时代,自然语言处理技术可以从文本中获取大量信息和价值,成为未来人类与机器无障碍沟通的重要技术之一[2]。 TFIDF改善了词频统计方法的不足。除了考虑词频之外,它还计算词的逆文档频率。 +e的基本思想是,如果一个词出现在语料库中的大部分文章中,即使该词的词频很高,但它的TFIDF值也不一定很高。
尽管人工智能近年来在各个领域取得了快速发展,计算机比人类任何时代都更接近人脑,但计算机不是人脑,无法理解含义并准确生成认知。像人类一样阅读一些相关文本,但他们只能通过统计、机器学习、简单推理机和基本记忆机制来处理文档[3]。 +他们只能提取或简单地“思考处理”文档,通过统计、机器学习、简单的推理机以及基本的记忆机制来组成文章的最终摘要。本文的+e模型对于长文本的上下文语义获取更加准确,并且提高了长距离的依赖能力。当输入文本较短时,发现纯Transformer模型和PGEN模型的评价指标结果相似,说明简单的Transformer模型处理短文本的能力很强,生成能力可以媲美LSTM 网络增加了注意力机制。然而,我们期望文本摘要是对文本的“深刻理解”,而计算机并不能“理解”文档的真正含义。目前大多数关于自动文本摘要的研究倾向于从原始文本中提取表达文本核心含义的句子,使其包含尽可能多的文本信息[4]。然而,无论从文档中提取哪些句子,都无法完全表达文本的主要含义。近年来,随着神经网络序列模型和分布式表示学习在自然语言处理任务中的技术突破和创新,文本摘要及其应用越来越受到研究人员的关注。

1.2相关的尝试

1.3本文贡献

在社交网络时代,信息检索和自然语言处理中数据挖掘的快速发展使得自动文本摘要任务成为必要,如何有效地处理和利用文本资源已成为研究热点[5]。 +e 文本摘要任务旨在将文本转换为包含关键信息的摘要。当今的自动文本摘要方法主要分为提取模型和生成模型。尽管这些模型具有强大的编码能力,但它们仍然无法解决长文本依赖性和语义不准确的问题。因此,本文进行了深入研究,以进一步解决生成的摘要与源文本事实不匹配的主要问题[6]。

二.相关工作

+“数据驱动”一词最早来自计算机科学领域;当我们构建往往无法用准确真实(一般真实原理简单准确)方法解决的数学模型时,我们也会根据之前的历史数据,通过大量的数据细化,构建近似模型来逼近真实情况[7] ,由数据驱动控制模型得出。赫尔登斯等人。提出了模型驱动的数据再工程、用于创建元模型的模型转换 MDE 工具以及模型转换语言。 Bernhard Hohmann 提出了一种基于 GML 的建模语言来生成参数驱动的提取模型 [8]。在国外,数据驱动的方法已逐渐从通常用于计算机的数据转换和重新设计转向参数化设计和模型构建驱动。东北大学的徐和党在《数据驱动建模方法的仿真研究》中总结了联合供热站TE数据驱动建立的基于BP神经网络的模型[9]。徐等人。杜克大学的研究人员分析了 Revit Structure 和 Robot Structural Analysis 之间的双向联系,并将分析结果与 PKPM 的计算结果进行了比较 [10]。
自动文本摘要任务作为自然语言处理任务的重要分支受到越来越多的关注。从内容上来说,自动摘要分为单文档摘要和多文档摘要。从方法上来说,它分为抽取式总结和生成式总结[11]。主题建模是文本挖掘的强大工具之一,可以通过文本的先验知识挖掘数据之间、数据与文本之间的潜在联系。主题建模在处理离散数据的源文本时可以发挥最大的优势。 +这些模型使用吉布采样、非负矩阵分解、变分推理和其他机器学习算法从特征文本空间推断隐藏的主题信息,特别是对于高维和稀疏特征文本[12]。 +e概率主题模型诞生了,它从海量文本中提取出能够表达文本主题的主题词及其概率组合,并大量剖析文档语义,从而对文本进行更深层次的分类或聚类。早期的概率主题模型以PLSA和广泛使用的LDA模型为代表,吸引了越来越多的研究人员对主题模型从模型假设、参数推断、主题数量到监督等各个方面进行改进和应用。纳迪姆等人。使用LDA模型来标记源文本的主题,并使用形式概念分析来构建结构等等。拉金德拉等人。提出了一种启发式方法,通过潜在的狄利克雷分配技术来确保生成的文本包含语料库原始文档的必要组成信息,以匹配源文本的最佳主题数量[13]。此外,一些研究将基于Pinball分配模型(PAM)的两级主题模型与文本排名算法相结合来完成主题文本摘要。然而,这些传统的基于词共现的长文本主题建模算法有很大的局限性,文本中信息和词汇量有限的问题没有得到很好的解决[14]。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

本文基于数据驱动不确定性分析理论,提出一种数据驱动建模方法,通过对模型组件进行参数化设计,然后对其进行数据驱动分析,最后以Revit为载体进行参数化二次开发。组件来实现数据驱动建模。为了获得更高、更适合摘要的词向量表示,本文提出了一种结合词汇性的细粒度词向量表示方法,因为表示学习是进行自然语言处理的基础任务,也是后续进行自然语言研究的基石。相关任务。本文通过结合词汇和位置信息,构建了一种新的、细粒度的用于文本摘要的词向量表示,并结合<word,lexical>词向量的二维表表示来减少词向量查找表的大小,提高查询效率效率高,实验表明该方法具有更好的文本语义表示能力。由于现有方法大多关注摘要所包含的文本信息量而忽略摘要本身的连贯性,因此本文结合文本图模型、复杂网络理论和LDA主题模型构建句子综合评分函数来计算对文本单句进行加权,将文本阈值内的句子按降序输出作为文本摘要。 +e算法提高了摘要的可读性,同时在摘要中提供了足够的信息。在下一步的研究中,将加强对文本的语义分析,进一步完善文摘的语义信息;此外,还可以扩展自建语料库,探索本文方法对其他类型中文文本摘要的准确性和可读性的提高。

文章来源:https://blog.csdn.net/yuyuyu_xxx/article/details/135605864
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。