基于维基百科的语义相关度计算研究

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:A2335767
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,文本数据大幅度地增长,如何利用计算机从大量复杂的文本中获取有用的信息,借助语义相关度计算是解决这一问题的途径之一。词语作为句子和文章的基础,其相似度和相关度计算同样也是语义计算的基础,在其他级别的(如句子、文章)文本间关系度量中发挥着非常重要的作用。  语义相关度计算的基础是语义资源,目前使用较多的语义资源主要有语义词典和知识库。语义词典的典型代表是WordNet和知网,这两种语义资源在语义计算中占有重要地位,但是语义词典的覆盖面有限,并且建立这样的语义资源耗费巨大。维基百科是一个可供每一个互联网用户自由编辑的网络百科全书,是目前词条数目最多和增长速度最快的百科知识库。维基百科能够提供大量可供计算机处理语义信息,所以本文最后选择了利用维基百科来进行语义计算。  基于维基百科的语义相关度算法有很多,根据维基百科的结构特点,大致可以分为四类,基于分类结构的算法,基于链接结构的算法,基于页面信息的算法和混合式的算法。本文分析了各种算法的优劣之后提出了一种新的算法,该算法应用向量空间模型,把概念链接的对应的维基百科分类属性处理简化为向量空间中的向量运算,并且它以空间上的相关度表达语义的相关度。当页面被表示为链接的向量,就可以通过计算向量之间的相关性来度量概念间的相关度。本文分析了维基百科各个链接的结构特点,对两个页面有互相的链出链接、有相同链出链接以及不同链出链接的权重作出了定义。一般的论文在结合两种结构时采用的是加权求和的方法,本文提出了一种新的方法来结合两种结构的语义信息。本文算法的创新点在于,分析了概念页面链接的所属分类,利用Google-Distance和节点在分类结构中的语义距离,来计算链接的权重系数。本文选取了Miller andCharles测试集,使用Spearman系数对算法的准确性进行验证。实验表明没有加入基于分类结构信息计算权重时相关系数为0.596,加入分类信息之后相关系数为0.67,高于除ESA以外的其他算法。由于ESA算法使用语义信息量庞大,算法复杂度较高,所以总体来说,本文算法取得了很好的结果。
其他文献
The advent of virtual machine monitor (VMM),namely Hypervisor has impacted thevirtualization world and brought up a possibility to run one or more virtual machi
本文针对三维的装箱排样问题,通过对二维任意形(包括非凸多边形)的排样问题做详细分析研究,得到某种解决方法,来简单地扩展应用到三维问题中。在近似最优算法的设计中,采用了遗传
移动IPv6协议(Mobile Internet Protocol version6,MIPv6)和代理移动IPv6协议(Proxy Mobile Internet Protocol version6,PMIPv6)作为下一代移动互联网的基础,为移动终端提供网络
本文研究了有线电视网络工程管理系统中计划优化技术,全文主要围绕以下几个方面进行研究。  1)有线电视网络工程管理系统整体特点:有线电视网络工程建设中的线路及设备本身是
三维数据场造型的一种有效方法就是对三维点集进行三角剖分,即将二维(三维)空间中任意分布的散乱点用直线段连接起来,形成的空间上既不重叠又无间隙的紧邻的三角形(四面体)集,每
本文着眼于对象/关系映射,通过对国内外对象/关系映射框架的分析和比较论证,同时考虑到国内中小型应用开发过程中的问题及特点,借鉴和吸收对象/关系映射领域里面的相关研究成果,
Clifford分析是上世纪70年代后发展成熟的高维数学理论,它在数字图像处理中的应用才刚刚起步。本文首先将Clifford代数应用于LUV模型的复杂背景彩色图像区域生长中,将“点”信
随着计算机与网络信息技术的飞速发展,被视作下一代互联网标准的网格技术的地位也越来越重要。网格技术的目标是消除资源孤岛,实现网络上所有分布资源的高层次的连通和共享。虽
随着信息技术和计算机技术的迅猛发展,人类进入了信息时代。网络教育是信息时代的必然产物,它使教育突破了时间和空间的限制,使人们可以随时随地的进行学习,最大限度利用教育资源
本文以高校校园网络系统的现状为背景,来探讨一个基于数字化校园分布式系统统一用户权限管理系统的设计与实现。全文结构如下: 第一章首先介绍了论文的选题背景及意义,根据用