【摘 要】
:
目前网络上数量庞大的数据信息,大多以HTML页面的形式被展示,由于HTML标记语言自身的特点,现有的大量数据往往不具有良好的组织与结构。另外,还存在多个概念表达同一语义的情
论文部分内容阅读
目前网络上数量庞大的数据信息,大多以HTML页面的形式被展示,由于HTML标记语言自身的特点,现有的大量数据往往不具有良好的组织与结构。另外,还存在多个概念表达同一语义的情况。那么,语义网不但可以将数据的表达形式和内容本身分离开,还通过定义一个领域内的公共本体,对不同概念表达同一语义的情况进行消歧,以实现计算机对数据的直接处理和理解。构建好的本体不应该是一成不变的,它应该随着数据的增加而不断更新扩展。本体的概念层级结构依据概念间的上下位关系对概念进行组织并存储大量的概念实例—实体。因此本体的更新扩展问题涉及到的两个最重要的问题分别是新实体的插入更新与新概念的定义更新。本文我们提出了一个自动化的解决方法来对本体进行更新,该方法可以向本体的概念层级中插入新实体,同时生成新的概念并将其插入概念层级中合适的位置。我们所用的方法仅仅需要有关新实体描述的很有限的信息,例如每一个实体自身所包含的属性。解决方法是综合了概念层级的结构和实体属性的文本内容这两方面的优势而提出的一种策略,其中实体属性的文本内容用来衡量一个实体和一个概念间的相似度,而概念层级的结构用来决定计算实体和哪一个概念间的相似度。我们提出的方法中用到的相似度度量方法,也结合了概率和规则两种因素。为了检验我们提出的方法的实际效果,我们在中文维基百科数据上进行了实验,即向已存在的中文维基百科概念曾经中插入新实体和形成新的概念对其进行扩展。在新实体插入的实验中,大多数情况下我们的方法表现较好,综合策略的表现优于仅仅使用了单一策略的方法。对概念层级第一层和第二层的概念进行新实体插入时,表现最好的实验的准确率都高于0.85。此外,在将新实体插入概念后,我们还基于实体属性和属性值的相似度度量方法,对概念中存在和新实体同名的情况进行区分。在新概念生成的实验中,基于实体属性的聚类方法在大多数情况下也表现良好。
其他文献
“国家高水平体育后备人才基地”创建和认定是实现我国竞技体育强国目标的系统工程。其宗旨是培养全面发展的具有较高运动水平和良好文化素养的青少年运动员,为我国优秀运动
图在互联网技术中有及其广泛的应用,但随着互联网的迅猛发展,图的规模也变得非常庞大,如何对图进行简化从而提升系统的扩展性是研究界关注的热点问题之一。传递归约是图操作
作为移动服务生态系统的核心,Android系统的版本发布及变更不仅会对许多开发者正在开发的相关项目产生影响,也会对成千上万的移动设备产生巨大影响。对Android系统的版本发布
近些年随着沈阳市经济的快速发展,商业格局发生了很大的变化,如建店较早的新世界一店可以说原来就是沈阳中高端消费的标榜,但如今由于各种原因正在停业改建,而大商旗下的新玛
目前,云服务越来越多地跨数据中心分布。不同地区由于房价、工资水平、电费等方面的差异,导致数据中心建设成本呈现区域差异,因此云服务提供商对提供的云服务也按照地理位置
橡胶树转基因改良和高通量基因功能验证,迫切需要高效转基因体系,然而,虽然橡胶树转基因频率得到很大提高,但是,转基因筛选效率非常低。花青素是一种肉眼直接可辨、简单、安
目的:通过临床收集师会医师治疗血管性痴呆的门诊病历,对处方中的中药进行频数统计,归纳分类,分析和挖掘,加上研究生期间的跟师心得体会,分析得出师会医师治疗该病的思路方法,为临床治疗该病提供新的思路和启发。方法:收集2018年1月1日至2019年12月31日师会医师在天津市中医药研究院附属医院脑病科门诊诊疗血管性痴呆患者的用药处方,筛选其中符合诊断标准和疗效标准的处方200首。首先,用WPS 2019
立体图像在采集、压缩、存储、传输和显示等过程中都会受到外界干扰,导致图像降质,严重影响人们的观看体验。因此,对立体图像的视觉舒适度进行评价是目前立体成像技术领域亟
埃里希·弗洛姆(Erich Fromm,1900-1980),弗洛伊德主义的马克思主义(1)的主要代表人物,开业长达四十余年的心理咨询师。弗洛姆毕生致力于对“人”的生存境遇的关注,对造成人的异
随着云计算技术在学术界的快速发展与在工业界的广泛应用,广域分布式的基础架构逐渐成为云计算的主流配置。并且云计算的广泛应用也对其计算资源量需求和服务质量提出了更高