论文部分内容阅读
随着互联网的急速发展,接踵而至的便是互联网信息量的急剧膨胀,尤其是文本信息的数量(新闻文章、电子书、科技报纸、博客等等)。据粗略估计,2015年网络的文本规模达到了将近47亿页。针对这样巨大的文本信息量,仅靠人力无法完全处理其中的有效信息。因此,为了简单明了地向用户提供文本的有效信息,我们有必要借助于计算机的力量实现快速定位有效信息的目标。针对上述问题,本文展开了基于图模型聚类的文本摘要方法研究,其主要的研究目标有三个:1)从文本中找出相关的内容;2)消除文本信息冗余,一个好的文摘系统必须尽量剔除重复的信息,否则冗余信息会成为噪音,影响最后的文摘结果;3)文摘结果对原始文本具有高保真度,保持文本多样性,文摘应最大化地包含文本的原始信息,使得用户能够无偏差地理解原始文本的主要思想。基于真实的网络文本数据,本文首先对文本句子建立评分模型:通过统计文本中的词语数量来计算文档词频(TF)和反文档词频(IDF),从而建立句子评分模型(TF*IDF)。其次对句子进行聚类:在句子评分模型的基础上充分考虑句子的统计相似性,语义相似性,共指消解以及语篇关系,将文本模型转化为图模型,通过给定聚类参数(是否为有向图,边缘选择条件,语言选择,阈值等),对图模型进行聚类,在聚类形成的每个簇中选择联系最紧密的句子组成文摘结果。本文提出的一种基于图模型聚类的文摘方法,能够较好地消除信息冗余问题,提炼文摘。通过实验证明,本文的方法与传统的只基于统计或聚类的方法相比,提高了文摘准确率。本文的主要工作和成果总结如下:(1)建立了文本图模型。为了更直观的建立文档文本间的关系,通过经典TF/IDF方法来计算经预处理后的文档词语的权重值,建立句子的权重评分统计模型,以便进行相似度计算。我们还从语篇分析、共指消解、语义相似度几个不同维度对统计方法进行修正,试图建立一个更加准确、合理的文本关系图。(2)为了解决信息冗余和信息多样性的问题,本文区别于一般的基于语法和语义相似性的方法,在图模型的基础上,提出了对该模型进行聚类的方法,该方法是无监督的并且具有普适性。该聚类方法效果的好坏的核心点就在于上文建立的文本关系模型是否足够的合理。(3)为了验证本文提出的基于图模型聚类的文本摘要方法的有效性,在数据集的选择方面将使用文摘领域最具代表性的DUC(Document Understanding Conference)数据集,它针对不同任务具有丰富的数据集。通过在不同数据集上的实验来证明本文所提方法的可行性。