基于链接开放数据的命名实体语义相关度算法设计

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zltxgl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理和信息检索的领域中,语义相关度的测量一直扮演着非常重要的角色。目前很多工作都集中在词与词之间的语义相关度测量上面,然而命名实体与命名实体之间的语义相关度测量却很少被提及,而后者也有着非常重要的意义。比如通过测量两个文档内命名实体之间的语义相关度,可以更有效地计算两个文档之间的相关度,从而实现更准确的语义搜索。目前的语义相关度测量方法主要分为两种类型:基于知识库的方法和基于统计的方法。基于知识库的方法主要利用维基百科[1]、Wordnet[2]等知识库来计算词的相关度,但是它最大的缺陷在于其有限的实体覆盖度。基于统计的方法主要通过挖掘互联网的统计信息来计算语义相关度,但是由于计算统计信息时,同名的实体都被作为相同对象看待,所以对于那些低频的实体无法测量出准确的语义相关度。为了解决这些问题,我们提出了一种基于链接开放数据(Linked OpenData,LOD)的命名实体语义相关度测量算法。由于链接开放数据中包含了非常多属于不同领域的数据源,拥有数以亿计的命名实体,所以通过利用链接开放数据,实体覆盖度的问题就可以得到很好的解决。此外,在链接开放数据中,拥有相同名字的命名实体都会拥有各自独立的描述信息,所以即使低频的命名实体也能拥有自己的可区别于其他命名实体的描述信息,因此,通过利用链接开放数据,低频命名实体的语义相关度测量也变成了可能。最终实验显示,我们的方法能够获得良好效果,并保证了鲁棒性。
其他文献
P2P 是网络计算的一种新技术,这种技术的目的是将网络中不同的计算机连接在一起,进行文件共享与交换,并能充分利用互联网和Web 站点中的闲置资源,从而使得P2P 在深度搜索、分
随着移动通信、移动商务、移动互联网、移动定位服务的迅速发展和广泛应用,产生了海量的包含移动对象时空信息的数据。这些数据构成了复杂的时空对象和关系,同时这些数据中隐
近年来,实时计算技术日益广泛地应用于航空航天、国防、交通运输、核电能源和医疗卫生等诸多实时安全关键系统,实时网络传输需求给实时网络带来了新的需求和挑战,成为各国工业界
随着网络规模不断扩大与业务不断增多,对网络性能管理和监控变得越来越重要。而传统的网管软件往往以网络设备为主要管理对象,无法监测和管理用户业务。终端用户所关心的不是
专家系统的发展日新月异,基于数据库的专家系统的开发模式给专家系统的开发研究带来了新的活力。符号积分专家系统是专家系统研究的一个方面,现有的符号积分专家系统由于知识库
近年来,由于无线网络用户迅速增长,导致无线网络的频谱资源日益匮乏,不能满足日益增长的无线网络用户的需要。因此在频谱资源有限的情况下,怎样进一步改善无线网络的频谱效率
随着全球Internet用户数量的激增,黑客对个人网络用户的攻击次数越来越频繁,攻击的手段也越来越先进,针对个人主机的安全防护技术己经成为当前网络安全研究领域的重点。防火墙技
嵌入式系统正迅速向在各种各样的电子设备中“弥漫”。随着设备复杂度提高,嵌入式应用程序也越来越复杂。设备开发商希望应用软件能摆脱下层操作系统和硬件的限制,在多种系统
随着企业管理信息系统软件在业务处理方式和职能范围上的不断深化和拓展,企业客户对管理信息系统软件的要求出现了新的变化。传统的MIS软件由于缺乏灵活的可配置性和易扩展性
1997年6月,IEEE推出了第一代无线局域网标准------IEEE802.11。目前基于802.11 MAC层工作主要集中在它的吞吐量和延迟性能上,以及其中定义的两种信道访问控制方式的标准:点协