论文部分内容阅读
互联网上信息过载给人们获取需求信息带来困难,摘要的出现使得人们能够快速准确地了解文档的主要内容,而人工摘要成本较高,并且具有很强的主观性,难以解决信息过载给人们带来的检索困难问题,文本自动摘要技术应运而生。目前的自动摘要系统仅生成一个与查询相关的摘要,目的是尽可能满足所有用户的总体信息需求,但不能充分满足每个用户的个性化信息需求,针对这个问题,本文提出了面向查询的多维度主题自动摘要方法,通过建立LDA主题模型,先对用户查询进行意图识别得到多个查询主题项,再根据不同主题项生成多个不同主题摘要,以满足各个用户对同一个查询的差异化检索需求。本文的主要工作如下:(1)提出对查询进行意图融合和主题识别的方法。传统的面向查询的多文档自动摘要任务只针对一个用户查询,而一个查询通常只包含少量的关键词信息,仅根据关键词信息得到的摘要,往往很难满足用户对查询的真正需求信息。本文通过对用户查询进行查扩展和主题表示,将一个查询分解成多个与查询相关主题项,一方面对查询粒度进行了细化,丰富了检索空间,另一方面能够尽可能涵盖用户的真正信息需求,充分满足用户的检索目标。(2)在面向查询的自动摘要方面,针对户查询识别出的多个主题项提出多维度主题摘要,针对句子权重度量方式提出句子权重决策算法,针对摘要句提取运用推荐系统中的NBI算法。传统面向查询的多文档自动摘要的主要任务是生成一个与查询相关的摘要,而本文生成的摘要有多个,对查询识别出的每一个主题项生成一个相应的摘要。在句子权重计算方法方面,融合多种句子权重度量方式,并引入文档与主题项相似度和句子与主题覆盖度两个相似度度量,提出句子权重决策算法。在摘要句提取上,利用NBI算法将查询识别出的各个主题项看作一个类别,将文档集中的每一个句子看作是另外一个类别,主题摘要句的选择的过程看作是向不同的主题项推荐句子,一个句子可以推荐到不同的主题中。(3)在Mac OS环境中用Python语言实现面向查询的多维度主题自动摘要系统。用维基百科中文全文档作为训练数据集,搜狗实验室中的搜索引擎查询日志和日常检索数据作为测试数据集,实验表明,与当前面向查询的自动摘要技术相比,本文提出的多维度主题自动摘要方法更加能够满足不同用户的差异化信息检索需求。