面向主题的自动摘要

来源 :武汉大学 | 被引量 : 0次 | 上传用户:huanghoubin101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上信息过载给人们获取需求信息带来困难,摘要的出现使得人们能够快速准确地了解文档的主要内容,而人工摘要成本较高,并且具有很强的主观性,难以解决信息过载给人们带来的检索困难问题,文本自动摘要技术应运而生。目前的自动摘要系统仅生成一个与查询相关的摘要,目的是尽可能满足所有用户的总体信息需求,但不能充分满足每个用户的个性化信息需求,针对这个问题,本文提出了面向查询的多维度主题自动摘要方法,通过建立LDA主题模型,先对用户查询进行意图识别得到多个查询主题项,再根据不同主题项生成多个不同主题摘要,以满足各个用户对同一个查询的差异化检索需求。本文的主要工作如下:(1)提出对查询进行意图融合和主题识别的方法。传统的面向查询的多文档自动摘要任务只针对一个用户查询,而一个查询通常只包含少量的关键词信息,仅根据关键词信息得到的摘要,往往很难满足用户对查询的真正需求信息。本文通过对用户查询进行查扩展和主题表示,将一个查询分解成多个与查询相关主题项,一方面对查询粒度进行了细化,丰富了检索空间,另一方面能够尽可能涵盖用户的真正信息需求,充分满足用户的检索目标。(2)在面向查询的自动摘要方面,针对户查询识别出的多个主题项提出多维度主题摘要,针对句子权重度量方式提出句子权重决策算法,针对摘要句提取运用推荐系统中的NBI算法。传统面向查询的多文档自动摘要的主要任务是生成一个与查询相关的摘要,而本文生成的摘要有多个,对查询识别出的每一个主题项生成一个相应的摘要。在句子权重计算方法方面,融合多种句子权重度量方式,并引入文档与主题项相似度和句子与主题覆盖度两个相似度度量,提出句子权重决策算法。在摘要句提取上,利用NBI算法将查询识别出的各个主题项看作一个类别,将文档集中的每一个句子看作是另外一个类别,主题摘要句的选择的过程看作是向不同的主题项推荐句子,一个句子可以推荐到不同的主题中。(3)在Mac OS环境中用Python语言实现面向查询的多维度主题自动摘要系统。用维基百科中文全文档作为训练数据集,搜狗实验室中的搜索引擎查询日志和日常检索数据作为测试数据集,实验表明,与当前面向查询的自动摘要技术相比,本文提出的多维度主题自动摘要方法更加能够满足不同用户的差异化信息检索需求。
其他文献
作为我国深入推进能源生产和消费革命、促进大气污染防治的重要手段,海上风力发电已经得到国家层面的重视。其中,大直径单桩基础是海上风电场应用最广泛的基础形式,这些基础
黄萎病(Verticillium wilt)是一种通过土壤与种子传播的维管束真菌病害,是当前影响我国棉花产量和纤维品质最重要的病害之一,主要致病菌为大丽轮枝菌(Verticilliumdahliae)。
随着化石燃料的日渐枯竭,大力开发清洁能源已经成为当今社会的热点问题。太阳能、风能等可再生能源发电可以促进低碳能源体系的构建,因而得到世界各国的大力推广。多电平变换
近年来,建筑设计以自由复杂的曲面形态为主,给结构设计带来许多挑战。特别是在建筑表皮形态设计中,不同造型和边界形式的曲面表皮越来越多地呈现在世人面前。在此背景下,人们
当前国内很多企业还未能树立起先进、科学的成本管理理念,存在成本管理手段落后、管理效果较差等问题。价值工程的提出为企业成本管理提供了新的方法和思路。本文尝试将价值
叠合板式剪力墙在建筑领域运用日趋广泛,但人们外对于新型的单面叠合板式剪力墙的抗震能力认识依旧不多。为使该结构更好的推广和使用,同时作为高层结构的建设依据,本文对一
干散货占全世界船队总运力的40%,散货船在世界海运中占据重要地位。然而,散货船因舷侧结构相对单薄,曾发生了许多的海损事故,造成了重大的人员与财产损失。因此,开展舷侧板架
随着工业4.0的发展,在现代能源、制造业、重工业等自动化系统控制领域中,大规模分布控制系统需要具备随生产需求变化自动切换各子系统输出的能力。对此,目前合作分布式预测控
人力资源是社会各种资源中最重要的资源,对于企业的发展而言,科学有序的人力资源管理有利于巩固和提升企业的核心竞争力,使企业能够获得长远发展。那么如何使人力资源发挥出
传统钢筋混凝土结构由于混凝土材料的固有缺陷,暴露出耐久性低、韧性低、变形能力差等工程难题。为解决这些问题,研究人员通过材料复合化的途径,研制出了工程水泥基复合材料E