基于词向量的文本距离计算及应用研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:junior9919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网逐渐成为记录人们生活和工作的信息载体,给人们的生活和工作带来了获取信息的便利,同时在被使用的过程中产生了大量的文本数据。如何从海量的、复杂的文本数据中及时有效地提取出重要信息?这些难题都急需要自然语言处理(Natural Language Processing,NLP)的相关技术来解决,其中文本距离的计算是自然语言处理中一项基础而重要的工作。文本距离(或文本相似度)的计算一直是自然语言处理领域的研究热点之一,在文本分类、文本聚类等面向文本级的自然语言处理应用中发挥着重要的基础性作用。传统的基于词袋的文本距离计算模型尽管简单易实现,但并未考虑词与词之间潜在的语义距离关系,因此有较大的局限性。近年来有学者提出基于word2vec的Word Mover’s Distances (WMD)方法,该方法在计算文本距离时考虑了词语间的潜在语义关系,提高了文本距离的计算精度,间接地改善了相关应用任务的效果,从而在一定程度上缓解了传统方法的不足。然而,该方法仅采用词频来度量词在文本中的重要性,并没有区分词之间的差异性,也没有抑制高频词的过度影响。此外,与给定词语义相似的一些词和给定词之间的词向量距离非常接近而难以区分。鉴于此,本文针对文本距离做了两方面的探索:第一,在WMD方法的基础上进一步提出了两类改进方法:其一,通过对词的统计加权来融入词的差异性特征,以及分别对词频和词权重进行规范化来抑制高频词的过度影响;其二,通过Sigmoid函数对词之间的相似度进行转换,使其具有更好的区分度。并在SemEval的五个公开数据集上进行了实验,结果表明这两类改进方法在相关性系数的评价上比WMD方法有所提高。第二,将所提出的方法应用到文本分类和跨媒体的信息链接两个任务中。在文本分类的任务中,利用所提出的文本距离计算方法结合KNN分类模型,在八个公开数据集上进行了实验,结果显示本文所提出的方法在分类错误率上比WMD方法有所降低;在跨媒体的信息链接任务中,融合文本距离和社交媒体的时间信息构建了线性回归链接模型,并在权威数据集上的实验结果显示,所提出的线性回归链接模型与基于矩阵分解的链接模型在ATOP评价方法上相当。综合两个应用任务的实验,验证了本文所提文本距离计算方法在不同应用任务上的可行性和有效性。
其他文献
现代汽车中电控单元数量不断增加使得汽车变得更安全更智能化,但不同硬件的电控单元使得汽车电子软件的可复用性大幅降低,严重影响产能和新产品的研发。基于这种情况,汽车电子业
随着科技的不断发展,单片机技术被广泛地应用于各个领域,极大地改善了人们的生活水平。单片机的应用将会越来越广泛,企业将需要大量的单片机人才,而高校是人才培养的摇篮,但是目前
计算机和互联网技术的普及与快速发展使得数据的产生、收集、存储日益便捷,因而数据量呈爆炸式增长。但是信息过载,使得人们面对海量的数据往往无从下手。因此频繁模式挖掘被提
随着人类步入大数据时代,人们的衣食住行都离不开信息与数据。相似性搜索是大数据研究的一个重要方向。数据的分析与处理往往离不开对高维数据的匹配与查找。针对于高维数据
图像中的纹理具有多样性、复杂性和不规则性,且在实际的应用中常常受到各种因素(光照、噪声、尺度、旋转以及平移)的影响。大部分现有的纹理特征提取算法,在受控条件(旋转、
视频是当今信息时代不可或缺的信息载体,而计算机视觉近年来一直是国内外研究的热点,运动目标轮廓提取作为其中的一个重要分支,广泛应用于图像分割、目标识别等领域。在视频
随着计算机技术的不断发展,CPU和系统主存的性能得到了极大的提高,但依然不能满足应用程序日益增长的内存需求,特别是I/O设备的发展相对滞后,磁盘性能成为影响计算机整体性能的重
随着软件业的发展,其应用已经贯穿了人们生活的每个方面。软件质量的好坏直接影响了软件供应商的生存与发展。软件测试所面临的挑战也越来越大。其面临的主要挑战是:客户要求
城市用水不仅关系着城市居民的生活质量,而且极大地影响城市经济的正常发展,对于整个城市的稳定有着重要的作用。水资源需要合理的开发与利用,因此如何科学的调度城市供水是
Internet是在早期出现的网络体系结构,随着用户和数据量的不断增多,Internet越来越难以满足对于服务质量的保障,这也成为Internet面临的一大挑战。虽然Internet尝试过增加一