面向领域的Web数据集成研究

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户:rfy68213919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息时代,依托于互联网的迅猛发展以及Web数据量爆炸式的增长,通过分析数据能够获得更多有价值的信息,进行Web数据分析之前的一个主要任务就是将不同来源的Web数据进行数据集成。由于大量的数据来源于不同的发布者,在Web网络上,即使针对同一领域,很多的发布者也都是相对独立的进行信息发布,为面向领域的Web数据集成带来了前所未有的挑战,Web数据集成变得尤为重要。Web数据集成具有以下特点:具备大量的数据来源,在同一个领域,Web数据源也成千上万,造成同一领域下的数据量非常庞大;很多不同的数据源之间都是异构的,但是它们的数据内容又有很多都是相似的;数据源各自的数据质量是有差异的,进行数据集成的过程中容易遇到很多数据重复和冲突的情况。针对这些特点,在Web数据集成中涉及到的主要问题包括:根据不同网站数据建立相应的Web数据模式和领域集成数据模式,针对Web数据模式和领域模式进行模式映射,以及在集成数据的过程中进行实体匹配。对于以上问题,目前的研究工作大多是独立地进行,本文在此基础上进·步把各部分的研究进行了结合。本文针对以上特点与所面临的问题,分别对数据集成中的模式层和实例层进行了研究,在模式层上主要研究了模式的建立和映射,在实例层上主要研究了实体匹配中的分块和匹配两个任务。研究中结合了实验室实际项目数据,通过实验分析论证了本文研究的成果。主要研究内容和相关工作如下:(1)针对模式层,介绍了面向领域的Web数据集成架构,该架构反映了从Web数据抽取到Web数据集成的结构中,各个组成部分之间的关系;建立了 Web数据模式与Web数据模型,以及领域数据模式和领域数据模型,以便为不同来源的数据设立统一的集成模式;提出Web数据模式与领域数据集成模式的模式映射方法,并由此建立了数据集成规则,用于解决数据集成过程中的Web数据模式与领域集成模式之间的冲突问题。(2)针对实例层,介绍了实体匹配分块方法的复杂度比较,引入最优分块方法来对实体进行分块,减少了实体匹配的搜索空间;针对Web领域实体不断产生和变化的情况,根据二阶Markov逻辑网给出实体匹配规则模型,基于该模型提出匹配函数提取算法,结合了最优分块策略,并在块内利用实体间隐含的关系来进行匹配,解决了实体匹配中实体和属性不断更新所造成的不确定性问题;引入随机森林,设计了基于随机森林的实体匹配算法,用于与基于二阶Markov逻辑网的实体匹配进行比较。(3)实验证明,提出的模式映射方法以及数据集成规则能有效地应用于领域数据集成;给出的规则模型和算法降低了实体匹配的匹配复杂度,提高了匹配精确率,同时具备良好的可扩展性;基于随机森林的实体匹配模型在精确度上稍微低于基于二阶Markov逻辑网的实体匹配模型,主要是由于二阶Markov逻辑网融入了实体之间的联系来进行实体匹配;基于二阶Markov逻辑网规则模型以及随机森林分别提出的DNF函数生成算法,能把算法2融入到各自的实体匹配流程中,提高了实体匹配的效率。
其他文献
系统整体风险水平分析和风险控制成本压缩是规避装配式建筑施工安全风险的关键环节,为了对装配式建筑的诸多风险进行有效控制,需要选择合理的风险控制策略。风险控制最重要的功能就是在风险辨识及评价的基础上,调度各方资源对风险控制方案进行优化。风险管控人员在调用相关资源进行风险管理时的资源使用效率和风险管控效果都难以实现最优化,因此通过建立有效的风险控制模型,将风险控制在一个可接受的水平,对保障建筑施工安全具
社区发现的目标是将网络分成若干个社区,使得同一个社区内节点间的连接比较紧密,不同社区之间节点间的连接较为稀疏。目前大多数传统的社区发现算法仅将每个节点划分到一个社
计算机自适应测验(CAT)是新型的测验方式,然而在以往的研究中,发现了CAT在测验开始阶段连续答对或答错对被试能力估计会产生较大的影响,本文从能力估计方法的角度来分析。(1)
一、引言浮空器是轻于空气的航空器,主要靠空气浮力产生的静升力克服自身重量升空。总体上,浮空器分为气球和飞艇两类。气球是指没有动力装置的浮空器,而飞艇是自带动力装置
会议
刘安世,(1048-1125),字器之,北宋河北大名府人。元祐初年,宋哲宗年幼,高太后垂帘听政。刘安世被执政的司马光举荐为秘书省正字。后又被吕公著举为右正言,曾出任左谏议大夫一职。作为一个谏官,刘安世尽到了“谏”的责任,不畏强权弹劾官员的不法行为。刘安世是北宋著名的台谏官,在他担任谏官期间因为敢于直谏而被人称为“殿上虎”。他对于国家政事极为关注,他始终以维护“祖宗之法”和“元祐国是”作为评判国家政
论述Samejima等级反应模型存在的不足,该模型用多个难度来描述教育考试中的多级记分试题,通过难度的递增来反映知识重点与能力考查的重要性,没有有效体现多级记分试题的加权
从人类出现以来,最优化的解决问题一直是人们在生产生活中所追求的目标。在探索解决问题方法的长期的道路上,人类不断地优化着自己的逻辑方法的同时,也在生存的自然空间,学习
随着移动智能终端设备的快速发展,越来越多的空间众包任务平台开始出现,比如滴滴打车、美团外卖等等,空间众包已经开始慢慢融入到热门的日常生活中,并与人们的生活息息相关。
随着计算机与互联网技术的迅速发展与崛起,计算机动画在现实生活中的应用面正在迅速扩大,近两年VR与AR等新兴理念的提出与应用更是使得计算机动画大放异彩。作为计算机动画的
目的:通过观察可调节支具在肘关节恐怖三联征术后早期康复中的治疗效果,探讨该方案对改善肘关节恐怖三联征术后患肢活动功能的临床价值。方法:选择2018年01月至2019年10月在泉州市正骨医院骨伤科住院行肘关节恐怖三联征手术的患者40例,根据患者的入院日期,按照随机数表法将治疗病例分为两组,试验组20例,对照组20例。对照组采用恐怖三联征术后中药桃红四物汤+石膏外固定3周+拆除石膏后行患肢功能锻炼方案