基于语义层次聚类的多文档自动摘要研究

被引量 : 0次 | 上传用户:hanyandai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现在这个互联网时代,人们习惯于从网络上获取各种信息,但是随着网络上的信息量迅速膨胀,即使在同一主题下的多篇文档,有相当大一部分是相似甚至是一样的,就算对这些文档进行去重处理,仍然会存在信息量过大、部分信息雷同的情况,人们要从这些繁杂、冗余的信息中迅速、准确地定位主要内容是非常困难的。多文档自动摘要是有效解决这一问题的方法之一,该技术通过对同一主题下多篇文档的信息进行提炼、压缩,整理出主要信息并以摘要的形式呈现给用户,把用户从海量信息的包围中解脱出来。本文分析了目前的多种多文档自动摘要技术,并在基于句子聚类的抽取式多文档自动摘要方法上,深入研究了文本中词语间的语义内在联系和各种聚类方法对自动摘要质量的影响,提出了基于语义层次聚类的多文档自动摘要方法。主要贡献如下:(1)借助语义词典(WordNet、知网)根据上下文语境对多义词进行词义消歧,以减小不确定语义对后续的聚类分析带来的不良影响。(2)提出基于语义层次聚类的子主题发现方法,首先对词语进行聚类分析以抽取出语义概念,并基于语义概念对句子建立向量空间模型,最后对句子进行聚类分析以发现子主题,从而减小传统向量空间模型中特征分量间“斜交”给句子聚类带来的影响。(3)在句子聚类阶段,给出并实现一个密度聚类与层次聚类结合的聚类算法,以发现尽量多角度的主题内容,提高摘要中子主题信息的覆盖度。(4)实现摘要句的抽取与排序算法,使得自动摘要在压缩要求下含有尽量丰富的主要信息,且摘要句按重要程度及总分逻辑排序,提高摘要的可读性。通过使用DUC2004任务2的英文语料在ROUGE评测系统上的实验,基于语义层次聚类的多文档自动摘要方法在各项评测指标上取得了相当不错的成绩:ROUGE-1排名第4、ROUGE-2排名第2、ROUGE-3排名第1、ROUGE-4排名第3、ROUGE-L排名第5、ROUGE-W-1.2排名第5,表明生成的摘要在召回率、准确率、可读性上都有较好的质量。另外,本文把该方法应用到新闻领域,构建了新闻多文档自动摘要系统,覆盖了英文语料和中文语料,系统自动生成的新闻摘要涵盖了多个角度的主要信息,具有不错的质量,表明本文方法可用于实际应用中。
其他文献
以吉林省抚松县松江河镇5年生人参还林地土壤为供试材料,研究有机肥、尿素、钾肥、益生源、益微、DND菌剂、复合肥、有机氮钾混肥这8种肥料在土壤中施用后,土壤中细菌数量的
作者通过对吉林省长春市一些农村初中英语新课程课堂教学调查,发现了许多问题。本文以控制要求新课程标准相关思维的典型问题探讨对策,从教学理论和实践两方面解决问题。
对体育专业学生的职业选择进行了问卷调查,并结合当前中小学体育教师队伍中出现的危机和现象进行了分析,结果表明:愿从事中学体育教师意向的学生越来越少,而选择从事大学体育教师
采用电化学原位红外光谱技术研究了对硝基苯酚在铜电极表面及硫酸介质中的电化学反应机理.对硝基苯酚首先经电还原反应生成对亚硝基苯酚和对羟胺苯酚,对亚硝基苯酚可发生缔合
高校高层图书馆不同于一般的高校多层图书馆,是一类现实存在的特殊形式。一方面,高层图书馆在大学校园环境中立足有其合理性的解释,即顺应了图书馆规模越来越大,体现其校园标志性
描述了物流管理模型的建立,重点阐述了加工生产物流平衡模型。采用启发式算法对加工生产模型加以仿真,并对仿真结果加以分析,得出分析结论。
提升高等教育质量一直是世界各国的共同追求,高等教育质量保障体系的建设也已成为当今世界高等教育改革发展的一个重要趋势。随着我国高等教育规模的快速扩张,高等教育质量问题
本文介绍了混合逻辑乘法器的设计实例,采用Altera公司的MAX7000AE系列的芯片及MAX+PLUSII开发系统实现,并给出VHDL的源程序及时序仿真波形。
旅游文化是旅游业的灵魂和支柱,在旅游经济、旅游管理和社会主义精神文明建设中有巨大作用。济南素来以"泉城",从济南市泉水旅游资源入手,深入挖掘泉水文化对于促进济南旅游
目的分析尿常规检测对尿路感染的诊断价值。方法对2015年8月至今收治的患者中,选择100例患者,对其进行尿常规检查,同时进行尿细菌培养,对其尿常规中的LEU、BACT、WBC以及NUT