论文部分内容阅读
随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们在日常生活中所必不可少的一种数据形式。短文本信息主要包括博客留言,微博信息,短信息,聊天记录等。其特点是信息长度短、语言形式灵活、数据规模大、时效性强、更新速度快。传统的文本挖掘方法没有考虑这些特点,不能够满足人们从大量短文本中准确获取信息的需要。因此发明并实现一种更为适合短文本信息的建模方法,具有重要的理论价值和实践意义。 本文具体研究工作如下:(1)提出一种更为适合短文本领域的文档建模方法,有助于提高短文本相关自然语言处理任务的准确度。使用三层置信网络能量模型,融合词向量信息,同时学习文档在线性空间与非线性空间下的向量表达,从而将短文本映射成文本向量的形式。本文提出一种深层受限波尔兹曼机模型,模型中加入词向量信息,丰富了短文本数据的语义信息,可以更准确地对短文本文档进行抽象表达。在公开的三个数据集上,使用得到的短文本线性表达与非线性表达进行文档分类与文档检索任务,均得到了令人满意的结果,提高了短文本数据在此类任务上的准确率。(2)提出一种使用词向量对检索词进行意图识别的查询扩展方法。利用深度学习训练得到的词向量具有线性关系的特性,结合文档建模方法中得到的单词权重,提出一种从全局角度进行查询扩展的方法。本文重点分析了伪相关反馈查询扩展方法与词向量查询扩展方法的不同,比较它们各自的优势与局限性。在新浪微博语料集上进行检索实验,结果表明,本文提出的融合基于全局文档集的查询扩展方法与局部文档集的查询扩展方法,可以有效去除扩展词中的噪音,提高扩展词的质量,最终提升检索任务的NDCG值。