短文本文档建模及查询扩展方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ashwgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们在日常生活中所必不可少的一种数据形式。短文本信息主要包括博客留言,微博信息,短信息,聊天记录等。其特点是信息长度短、语言形式灵活、数据规模大、时效性强、更新速度快。传统的文本挖掘方法没有考虑这些特点,不能够满足人们从大量短文本中准确获取信息的需要。因此发明并实现一种更为适合短文本信息的建模方法,具有重要的理论价值和实践意义。 本文具体研究工作如下:(1)提出一种更为适合短文本领域的文档建模方法,有助于提高短文本相关自然语言处理任务的准确度。使用三层置信网络能量模型,融合词向量信息,同时学习文档在线性空间与非线性空间下的向量表达,从而将短文本映射成文本向量的形式。本文提出一种深层受限波尔兹曼机模型,模型中加入词向量信息,丰富了短文本数据的语义信息,可以更准确地对短文本文档进行抽象表达。在公开的三个数据集上,使用得到的短文本线性表达与非线性表达进行文档分类与文档检索任务,均得到了令人满意的结果,提高了短文本数据在此类任务上的准确率。(2)提出一种使用词向量对检索词进行意图识别的查询扩展方法。利用深度学习训练得到的词向量具有线性关系的特性,结合文档建模方法中得到的单词权重,提出一种从全局角度进行查询扩展的方法。本文重点分析了伪相关反馈查询扩展方法与词向量查询扩展方法的不同,比较它们各自的优势与局限性。在新浪微博语料集上进行检索实验,结果表明,本文提出的融合基于全局文档集的查询扩展方法与局部文档集的查询扩展方法,可以有效去除扩展词中的噪音,提高扩展词的质量,最终提升检索任务的NDCG值。
其他文献
随着计算机技术和通信技术的快速发展,电子文档的安全存储、安全处理、安全传输显得越来越重要。对电子文档保护的重要手段之一就是加密,将信息以密文的形式存储和传输,从而
人脸识别作为一种重要的生物识别技术,在很多领域有着广泛应用。目前国内外已经有了一些比较成熟的人脸识别技术,例如特征脸、本征脸、拉普拉斯脸等。然而人脸本身作为生物特征
在大数据时代,我们正步入一个由数据驱动的经济社会,是否能够高效地、及时地分析海量数据变成了一个产业成功与否的重要前提。在海量数据处理环境中有很多需要在流式数据上进
三维计算机模型在逆向工程、计算机辅助设计以及计算机图形学等领域得到了广泛的应用,为产品的快速开发创造了条件。近年来,数字测量设备的快速发展使得我们能够直接得到物体
现有的医学技术对于一些特殊疾病比如帕金森的诊断还不是十分准确。尝试找到一种新的行之有效的辅助医疗诊断的方法应用于具体医学病例,确保现有诊断的准确性,进而推广这种思
近年来,随着移动设备计算能力增强,无线通信技术,无线定位技术以及微型传感器普及,如何为移动用户提供最适合的个性化的信息服务(已经成为新兴的研究热点。传统的信息服务是
分类是机器学习的重要任务之一,传统的分类方法有一个默认的假设,就是数据集中各类别所包含的样本是均衡的,故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在
随着城市化进程的加快,许多城市开始修建地铁。地铁中需要配置监控系统,用来监控地铁的运行环境。由于监控系统集成越来越多的子系统,其依赖的网络规模逐渐增大,网络管理也逐
在计算机领域中,软件的发展相对滞后于硬件的更新是一个长期存在的问题。而当人们迈入多处理器、多核心时代时,该问题变得更加严峻。特别是在多核的模拟器方面,虽然各大厂家
本研究课题来源于国家自然科学基金资助项目“典型事件过程建模的研究”。事件时序关系的研究目的是建立事件之间在时间上的先后顺序关系,事件时序关系的研究在文本分类、问