论文部分内容阅读
互联网逐渐成为记录人们生活和工作的信息载体,给人们的生活和工作带来了获取信息的便利,同时在被使用的过程中产生了大量的文本数据。如何从海量的、复杂的文本数据中及时有效地提取出重要信息?这些难题都急需要自然语言处理(Natural Language Processing,NLP)的相关技术来解决,其中文本距离的计算是自然语言处理中一项基础而重要的工作。文本距离(或文本相似度)的计算一直是自然语言处理领域的研究热点之一,在文本分类、文本聚类等面向文本级的自然语言处理应用中发挥着重要的基础性作用。传统的基于词袋的文本距离计算模型尽管简单易实现,但并未考虑词与词之间潜在的语义距离关系,因此有较大的局限性。近年来有学者提出基于word2vec的Word Mover’s Distances (WMD)方法,该方法在计算文本距离时考虑了词语间的潜在语义关系,提高了文本距离的计算精度,间接地改善了相关应用任务的效果,从而在一定程度上缓解了传统方法的不足。然而,该方法仅采用词频来度量词在文本中的重要性,并没有区分词之间的差异性,也没有抑制高频词的过度影响。此外,与给定词语义相似的一些词和给定词之间的词向量距离非常接近而难以区分。鉴于此,本文针对文本距离做了两方面的探索:第一,在WMD方法的基础上进一步提出了两类改进方法:其一,通过对词的统计加权来融入词的差异性特征,以及分别对词频和词权重进行规范化来抑制高频词的过度影响;其二,通过Sigmoid函数对词之间的相似度进行转换,使其具有更好的区分度。并在SemEval的五个公开数据集上进行了实验,结果表明这两类改进方法在相关性系数的评价上比WMD方法有所提高。第二,将所提出的方法应用到文本分类和跨媒体的信息链接两个任务中。在文本分类的任务中,利用所提出的文本距离计算方法结合KNN分类模型,在八个公开数据集上进行了实验,结果显示本文所提出的方法在分类错误率上比WMD方法有所降低;在跨媒体的信息链接任务中,融合文本距离和社交媒体的时间信息构建了线性回归链接模型,并在权威数据集上的实验结果显示,所提出的线性回归链接模型与基于矩阵分解的链接模型在ATOP评价方法上相当。综合两个应用任务的实验,验证了本文所提文本距离计算方法在不同应用任务上的可行性和有效性。