基于图聚类算法的大规模RDF数据查询方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:visualhoxygen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
资源描述框架(Resource Description Framework,RDF)作为一种简单且可扩展性强的数据模型,日益成为万维网以及其他许多领域的数据表示方式。RDF数据的大量涌现使得RDF数据查询面临着巨大的挑战。目前已经存在许多开源的商业软件利用传统的关系数据库管理系统或原生RDF存储系统来存储和查询RDF数据。但是它们对大规模RDF数据的查询性能总是不太理想。为了提高大规模RDF数据的查询性能,本文设计了基于图聚类算法的大规模RDF数据查询方法,有单机查询和分布式查询两种策略。首先选择表现良好的图聚类算法对大规模RDF数据进行划分,得到一个划分子图内部连接非常紧密而子图之间连接非常稀疏的划分结果。单机的RDF查询方法是根据SPARQL查询请求对各RDF划分子图进行筛选,忽略不相关的划分子图,从而缩小查询范围,并最终提高查询效率。分布式RDF查询方法是将RDF数据划分子图分成若干组,然后把每组数据分别存放在一个计算节点上,通过调度程序,让每个计算节点执行完整的SPARQL查询,并将各计算节点返回的查询结果汇总起来发送给用户。本文成功地实现了以上大规模RDF数据查询方法。并选取大规模RDF数据YAGO2进行了性能试验。实验证明,本文提出基于图聚类算法的大规模RDF数据查询方法能够在保证很高查全率的前提下,大大提高大规模RDF数据的查询效率。
其他文献
空管全系统信息管理是未来民用航空领域空管信息服务的核心,其运行理念是通过建立网络为中心的信息交换以及服务模式,实现空管信息的收集、整合以及派发等操作,而空管全系统
数据库作为企业信息系统的一个重要组成部分,存储着大量的数据,其中某些数据安全性在信息系统的安全中起着至关重要的作用。目前,数据库本身在安全控制方面做的还不够,数据信
软件成本估算是软件项目管理的重要组成部分之一。影响软件成本的因素很多,但是仅从软件项目的自身因素来说,软件项目的工作量(规模)是影响软件成本的一个非常重要的因素,正确估
软件测试作为保证软件质量,提高软件可靠性的重要手段,在软件开发中起着不可替代的作用,其关键与核心是测试用例的生成。目前测试用例的生成主要靠手工完成,测试过程往往带有很大
RNA是一类重要的生物大分子,对RNA二级结构的研究是当今计算分子生物学的一个前沿课题。RNA单链由四种碱基(A、C、G、U)排列组成,RNA二级结构是指由RNA单链通过自身回折而形成
CIMS是近年来随着企业的大规模生产和市场竞争的日益激烈而发展出的一种强调企业生产过程中的计算机化、信息化、智能化和集成优化的现代制造系统。CIMS作为实现CIM理念的实
作为一种低成本、高覆盖范围且方便部署的Internet接入方案,无线Mesh网络通常需要承载大量高吞吐率、高可靠的应用业务。但无线传输的易错性、信道质量的时变性,以及Mesh网络的
如何保证数字化信息产品的所有者的利益成为需要解决的迫切问题。数字水印技术在这方面扮演了重要的角色,它可以通过在数字信息产品中嵌入不可见信息或可见信息(如指纹、签名
信息服务作为网格平台的重要组成部分,它的性能优劣直接对网格平台的可用性和可扩展性产生深远的影响。信息服务是网格平台中信息管理模块与模块之外的其他部分交互的一种重要
随着无线传感器网络(Wireless Sensor Network, WSN)在诸如室内、管道、路网、水下、战场等受限环境中的越来越广泛的应用,受限环境无线传感器网络的部署技术得到了广大学者的