论文部分内容阅读
面对互联网上信息爆炸式的增长,作为从海量信息中提取有用信息的关键方法,文本摘要技术一直备受各领域学者的关注。文本摘要是自然语言处理领域的研究热点和难点,它主要研究从海量文档信息中压缩提炼出便于读者阅读理解的概括性文字描述,从而有效降低用户的信息过载问题。文本摘要技术的研究有着众多应用场景,例如新闻标题生成、科技文献摘要生成、搜索结果片段生成、商品评论摘要等,具有广泛的应用价值。目前,伴随着新技术浪潮涌现出了一大批相应的文本摘要方法。但是相关研究仍然存在以下不足和局限性:(1)现有语义摘要方法大多停留在利用浅层语义信息生成摘要,无法充分利用篇章级完整语义信息导致文本摘要质量降低。(2)现有文本摘要的去冗余方法大多基于相同的字词来去除冗余信息,缺少有效去除语义冗余信息的方法。(3)虽然现有文本摘要技术能够有效提取重要字词内容,但是生成摘要的字词之间的语义连贯性仍有待提高,缺少一种完善摘要语义结构的方法。抽象语义图(Abstract Meaning Representation graph,AMR图)的方法能够较好地描述出句子的完整语义结构,但是现有AMR图的文本摘要方法只利用到句子级语义信息。在此基础上,论文基于抽象语义图的方法,进一步利用篇章级语义信息生成文本摘要。本文主要针对文本摘要流程中提取重要语义内容、去除语义冗余信息、完善摘要语义结构这三个重要步骤展开研究。论文的主要内容和创新点如下:1.提出基于加权AMR图的语义摘要子图算法。通过利用AMR总图构建文档整体语义图来利用篇章级语义信息,并提出了一种利用稀疏自编码器来融合多个特征的方法,在AMR图的基础上进行创新改进,根据融合特征对原本不具有权值的抽象语义图节点赋予相应权值,依据权值大小从中抽取重要语义内容生成语义摘要子图,并恢复出文本摘要。实验结果中,ROUGE值的显著提高表明,该算法有效地提高了文本摘要内容的正确性。2.提出基于AMR图的语义冗余信息过滤算法。针对现有文本摘要中存在的语义冗余问题,提出了语义冗余性的概念来描述语义冗余信息,并介绍了利用Word Net语义字典来判断AMR图语义冗余信息的方法,最后通过AMR图融合的方法对摘要冗余信息进行过滤。相关摘要数据集实验表明,ROUGE值提升的同时Smatch值也有较大地提升,相比现有的基于相同字词去除冗余信息的方法,该算法有效地减少了摘要中语义冗余信息的出现。3.提出基于整数线性规划(Integer Linear Programming,ILP)重构AMR图结构的语义摘要算法。为了改善AMR图节点之间语义结构关系,提出基于整数线性规划的方法对AMR图语义结构进行重构,有效地提高了文本摘要的可读性。由于摘要子图节点语义结构不完整,本文利用整数线性规划的方法,通过确定目标函数和约束条件,对重要语义节点之间的语义边关系进行重构,生成语义完整的文本摘要。摘要数据集的实验结果中,该算法的语义特征结构Smatch评价指标的显著改善表明,该算法提高了摘要的语义连贯性,使生成摘要的可读性得以有效提高。