论文部分内容阅读
在现在这个互联网时代,人们习惯于从网络上获取各种信息,但是随着网络上的信息量迅速膨胀,即使在同一主题下的多篇文档,有相当大一部分是相似甚至是一样的,就算对这些文档进行去重处理,仍然会存在信息量过大、部分信息雷同的情况,人们要从这些繁杂、冗余的信息中迅速、准确地定位主要内容是非常困难的。多文档自动摘要是有效解决这一问题的方法之一,该技术通过对同一主题下多篇文档的信息进行提炼、压缩,整理出主要信息并以摘要的形式呈现给用户,把用户从海量信息的包围中解脱出来。本文分析了目前的多种多文档自动摘要技术,并在基于句子聚类的抽取式多文档自动摘要方法上,深入研究了文本中词语间的语义内在联系和各种聚类方法对自动摘要质量的影响,提出了基于语义层次聚类的多文档自动摘要方法。主要贡献如下:(1)借助语义词典(WordNet、知网)根据上下文语境对多义词进行词义消歧,以减小不确定语义对后续的聚类分析带来的不良影响。(2)提出基于语义层次聚类的子主题发现方法,首先对词语进行聚类分析以抽取出语义概念,并基于语义概念对句子建立向量空间模型,最后对句子进行聚类分析以发现子主题,从而减小传统向量空间模型中特征分量间“斜交”给句子聚类带来的影响。(3)在句子聚类阶段,给出并实现一个密度聚类与层次聚类结合的聚类算法,以发现尽量多角度的主题内容,提高摘要中子主题信息的覆盖度。(4)实现摘要句的抽取与排序算法,使得自动摘要在压缩要求下含有尽量丰富的主要信息,且摘要句按重要程度及总分逻辑排序,提高摘要的可读性。通过使用DUC2004任务2的英文语料在ROUGE评测系统上的实验,基于语义层次聚类的多文档自动摘要方法在各项评测指标上取得了相当不错的成绩:ROUGE-1排名第4、ROUGE-2排名第2、ROUGE-3排名第1、ROUGE-4排名第3、ROUGE-L排名第5、ROUGE-W-1.2排名第5,表明生成的摘要在召回率、准确率、可读性上都有较好的质量。另外,本文把该方法应用到新闻领域,构建了新闻多文档自动摘要系统,覆盖了英文语料和中文语料,系统自动生成的新闻摘要涵盖了多个角度的主要信息,具有不错的质量,表明本文方法可用于实际应用中。