面向大规模RDF知识图谱的分布式正则路径查询处理研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:sxuuboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识图谱的兴起和发展,资源描述框架(RDF)作为灵活的图数据模型,已被广泛认可作为描述大规模知识图谱的标准数据格式。在RDF知识图谱上实现高效、可扩展的查询操作已经引起越来越多的关注和研究,被广泛应用到社交网络、生物信息、政府舆情等各个研究领域。正则路径查询(RPQ)是RDF数据中基本的图查询操作,能够以导航的方式探索图数据,已经成为学术界和工业界的研究热点之一。然而现有的查询方法大多关注于标准语义下的正则路径查询,并不能提供答案路径中详细的起源信息,不利于用户观察和分析。本文提出基于Pregel的起源保障正则路径查询处理方法P3RPQ,旨在高效处理大规模RDF知识图谱。将正则路径查询转换成等价的自动机,进而对数据图中顶点和自动机中状态进行匹配。所提方法P3RPQ能够充分利用Pregel以顶点为中心的特点,在每轮超步中,顶点并行地与状态构建匹配对。进而顶点发送消息到邻接点,在接下来的超步中导航式地逐步扩展生成中间结果路径。同时,对P3RPQ分析代价,根据构建的代价模型设计优化策略。本文设计候选状态集预计算和属性过滤方法来降低顶点计算的开销;设计剪枝发送消息和基于变长字节编码消息以减少中间结果数量,降低通信开销。进一步地,设计消息选择和消息压缩策略,能够在一定程度上解决“数路径问题”。通过设计丰富的正则路径查询,并在合成数据集和真实数据集上执行查询,来测试所提方法和优化策略。大量而丰富的实验结果验证了方法P3RPQ和相应策略的效率和扩展性,证明P3RPQ能够很好地在大规模RDF知识图谱上处理起源保障的正则路径查询。
其他文献
角蛋白是一种可再生、可生物降解、价格低廉,而且容易获得的非食物性蛋白质。废弃的羽毛、羊毛、头发、指甲及动物角蹄中均富含角蛋白,但大多被焚烧或掩埋等方法处理,这不仅
近年来,大数据和人工智能得到了快速发展。当面对海量数据以及高表达性的本体时,推理效率受到巨大的挑战。通过物化方式将推理问题转换为查询问题是当前查询问答推理的主流方
无线传感器网络(Wireless Sensor Networks,WSNs)是当下信息领域中研究的热门方向之一,可用于特殊环境实现信号的采集、处理和发送。作为一种新颖的信息采集和处理技术,无线
ART DECO风格近些年呈现出逐渐回归于其传统的建筑设计、室内设计和工业造型设计领域的趋势,该风格已融入到了图形设计、工艺美术、时装设计和影视艺术等诸多方面。ART DECO
随着语义网的发展,RDF数据越来越多地应用于各个场景,其数据规模不断增长。为了更好地应用这些数据的价值,并且满足现今RDF数据规模巨大的需求,需要设计一套能处理RDF大图数
随着微电子产业的飞速发展,射频无线接收机技术也日新月异,基于CMOS工艺的多模多频接收系统在成本上较单一系统的接收机优势明显,在无线通信领域中受到了广泛的关注。滤波器
近年来,柔性可穿戴光探测设备在通信、健康和安全等领域受到关注,而紫外光探测设备由于其抗干扰能力强、探测灵敏度高等优势在民用和军用领域应用广泛。目前所报道的纤维状、织物状柔性紫外光探测器普遍存在机械强度不高、界面接触弱等柔性性能不佳的问题,且器件组装工艺复杂,难以实现柔性可穿戴的应用。因此,本论文采用可兼容工业化量产的全溶液工艺,制备了光响应性能优异且具有高柔性、高机械强度的柔性紫外光探测器。本论文
党的十九大报告指出,深化金融体制改革,增强金融服务实体经济能力,健全货币政策和宏观审慎政策双支柱调控框架,健全金融监管体系,守住不发生系统性金融风险的底线。在银企间存在极强的信贷关联情况下,实体经济与金融体系之间势必会出现风险反馈效应:企业贷款违约的出现,必然导致银行坏账的增多和不良资产率的上升;银行在遭受资产损失后或违约概率提高后信贷宽松政策的调整会直接影响企业的资金流动性,尤其是核心银行的信贷
序列比对是生物信息学的重要基础。Smith-Waterman算法是序列比对中使用最为广泛的算法。它采用动态规划的思想,计算序列中最为相似的序列片段。由于生物信息迅速增长,加速和
将疏水性环氧合酶抑制剂氟比洛芬(flurbiprofen)连接在顺铂(cisplatin)轴向合成一种全新的四价铂前药 cis,cis,trans-[Pt(Ⅳ)(NH3)2Cl2(flurbiprofen)2](Platin-FP)。通过1H,