本体实例学习关键技术的研究

来源 :中国人民大学 | 被引量 : 5次 | 上传用户:sy_2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着本体作为一种信息的组织形式被广泛的应用到水利[1]、词的组织[2]、交通[3]、艺术[4]等相关的领域中,本体的数目和数量增长的越来越快。由于在初期构建本体的时候,专家不可能或者没有能够形成一个非常好的分类结构,所以对于某些本体来说一个类中就会有非常多的实例,例如Wordnet[2]中有14个类,但是有140000多个实例;Hydrologic Ontology[1]中有5个类,但是有2744个实例。因此,我们提出了OntoOn本体学习工具。该工具可以从实例中学习新的类别,新的概念。通过这个工具,本体专家可以很方便的进行本体库的二次开发。我们的目的就是要设计一个支持海量数据的,灵活的,自适应的,以用户为向导的本体学习工具。本文通过对本体实例特征的研究分析,提出了从本体实例中进行学习的一套合适的设计框架—基于Code系统的OntoOn本体实例学习工具。该方案总共分成四个步骤:1.数据预处理阶段。2.本体特征向量选择阶段。3.本体结构构建阶段。4.本体标签标注阶段。本文就该系统中的一个点,即实例相似性计算问题方面进行了深入的研究。我们发现如果两个实例通过边与相似的实例相关联,那么这两个实例的相似性就比较大。因此,基于以上现实的观察,我们通过实例和实例之间的连接分析,计算两个实例之间的相似度,从而将相似的实例聚集在一起,最终形成合适的本体结构。但是,现存的计算相似度的算法中,SimRank[5]、LinkClus[6],ReCoM[7],FingerPrinted SimRank[8],SimFusion[9]等算法存在着各种各样的问题。SimRank和SimFusion算法计算相似度很准确但是时间上面消耗太长了,计算了很多不用计算的节点。ReCoM,FingePrinted SimRank算法在时间上有了很大的提高,但是在准确度方面比较差,主要原因就是没有考虑到其他节点对相似性的影响。LinkClus算法在时间和准确度方面都有很大的提高,但是在某些情况下错误的计算了相似度。基于以上这些问题,我们在星型图的基础上提出了S-SimRank算法。实验表明,我们的S-SimRank算法在准确性和效率方面都有很大的改善。
其他文献
无线通信、微机电系统(Micro-Electro-Mechanism System,简称MEMS)以及传感器技术的发展孕育了无线传感器网络(wireleSS Sensor Networks,简称WSN)这一新的计算模式。时间同步
目前,嵌入式计算机是信息产业新的经济增长点,是振兴我国信息产业新的突破口。随着嵌入式市场的不断扩大,市场对嵌入式系统的安全性、可靠性、可维护性和生命周期都提出了更
现今生产生活组织形式和步骤日益复杂化,多元化,差异化,对合理进行资源分配提出了更高的要求。引申出的资源分配问题就是研究对有限资源合理利用,进行优化配置,取得最理想的
非规则计算是许多重要科学应用的主要的问题,计算流体力学、计算分子动力学等经典计算科学中的非规则计算问题已经成为高性能计算重要的挑战性问题并得到广泛的研究。目前生物
软件估算是软件项目管理的核心问题之一。软件的估算主要包括软件规模、进度、成本、风险估算等,通过软件估计,可以让软件开发组织知道项目将会有多少投入,有效地组织软件开发活
学位
本文以未来指挥自动化系统为背景,针对其分布式多域系统结构的特点以及对高效数据采集系统的需求,并在分析常用数据采集相关技术的基础上,构建了一种高效的适用于分布式多域系统
在当前智能办公领域的应用研究中,“以人为中心”的服务理念已经得到了广泛的共识。通过将上下文感知技术和数据挖掘技术融合于一体,本文设计并实现了一个面向会议情景的个人
系统芯片SOC(System On a Chip)的出现使得整个系统在一个芯片上实现成为可能,但设计的复杂性和TTM(Time to Market)也给设计方法和设计流程提出了更高要求。高级综合HLS(High
2002年,OMG(国际对象管理组织)提出了MDA(模型驱动构架)。MDA的目标是把业务和应用逻辑与底层的平台技术分离。基于MDA及相关标准的平台独立应用能够在一些开放或者专有平台上
学位
叙事自动生成是一个重要的研究方向。目前,我们正在研究一种基于知识和用户需求的叙事自动生成方法和系统。骗局是一种特殊的过程,它既可以独立地作为一个完整的叙事,又可以成为