面向Web数据的高效查询调度与数据获取方法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:haidiaiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展以及各种网络通讯设备的迅速普及,Web数据的规模呈指数级增长,Web服务已渗入人们的日常生活。与此同时,Web用户数量也在与日俱增,这些用户使用Web服务来便捷日常生活已成常态。Web数据和Web用户的快速增长,迫切需要我们设计高效的Web数据管理系统来满足用户日益增长的个性化需求。Web数据管理系统,通过获取Web数据源上的数据,来为用户提供高质量、带有附加值的数据服务。其中Web用户查询的高效调度和Web数据的高效获取,是用户满意和Web数据管理系统成功的关键。Web用户查询的高效调度是指对用户查询的执行设计排序策略,有效地提升系统的性能。高效的查询调度使得Web数据管理系统提供用户更好的服务体验,潜在增加系统管理者的经济收入。与此同时,用户查询的目标是为了获取高质量的数据进行决策支持,因此我们还需要从众多的Web数据源上获取数据。然而Web数据源的自治性、动态性、重叠性和海量性给我们快速获取时新、完整的Web数据带来重大挑战。因此为了能够提供Web用户高质量的数据服务,开展面向Web数据的高效查询调度和数据获取方法的研究具有重要的社会意义和经济价值。本研究以Web数据为对象,研究如何提高基于公共子表达式结果共享的查询调度的性能,如何提高在动态Web环境下基于top-k查询约束的深网增量爬取效率,以及如何提高从海量Web数据源中选择高相关、低重叠数据源集合的效率。具体而言,本文主要包括以下四个研究工作:(1)基于公共子表达式结果共享的查询调度用户在数据空间中注册个性化查询,进而在数据管理系统中找到满足需求的数据。然而Web数据的动态变化,需要系统有效调度查询,更快更多地“按需获取”Web数据源上的新数据。针对现有查询调度工作中未考虑查询相关性,导致冗余工作重复执行降低查询效率的问题,本文提出一种基于公共子表达式结果共享的查询调度方法,高效地调度用户查询,提高用户满意度。为了综合衡量调度的效率和效果,本文首先定义用户满意度为查询的收益率QHR(Query Harvest Rate),即查询结果中新元组数量和查询处理时间的比率。然后提出了基于查询表达式的查询划分策略,提取查询之间的公共子表达式,去除冗余的查询部分。最后,本文针对查询收益率设计了查询优先级,有效地共享公共子表达式结果,最大化总体QHR。基于TPC-H数据集上的实验结果表明,本文方法能够有效地优化QHR。(2)基于top-k查询约束的深网增量爬取在仅允许top-k查询的动态Web数据源中,爬虫获取变化元组时也会得到不变的元组,导致爬取效率低下。本文提出一种基于查询树自底向上的增量爬取方法,在查询类型约束(top-k查询)和查询资源约束下高效爬取已变化的元组。首先,本文基于top-k查询生成查询树,基于查询树获取有效的叶子查询集合,利用历史数据和领域知识估计这些叶子查询的变化规律和变化所需的查询代价;其次,基于估计的查询数据质量增益和查询代价,在深网数据源查询次数约束下,建模爬取问题为背包问题,并近似地选择最优的查询子集,获取时新的查询结果,最大化本地数据质量。基于Microsoft Academic Graph数据集上的实验结果表明,本文方法较好地提高动态深网数据源爬取的效率和本地数据质量。(3)基于分层抽样的重叠深网数据源选择针对海量深网数据源中查询在多个数据源上的结果重叠导致查询效率低下的问题,本文提出一种元组水平分层抽样的数据源选择方法,高效地选择高相关、低重叠的数据源集合。首先,本文设计了一种基于误差约束的分层抽样方法,利用样本精确估计查询在各数据源上的覆盖率;其次,本文提出一种基于部分样本数据的数据源重叠率精确估计方法,利用给定的样本和已查询数据源的结果来估计查询在数据源上的重叠;最后,本文基于估计的统计数据提出一种启发式的高效重叠数据源选择方法(类似KNN方法),选择高相关、低重叠的数据源集合。基于TPC-W合成数据集和Abebooks真实数据集上的实验结果表明,本文方法不仅能保证用户查询结果的精度,同时相比传统的方法能够显著提高效率。(4)T-Music:个性化Web音乐系统基于上述Web数据管理及其关键技术的研究成果,本文研发了 T-Music,一个以多媒体音乐数据服务和数据管理为核心的个性化Web音乐系统。T-Music以数据服务层、数据管理层以及数据获取层为基本的三层架构。为了提高系统的性能,T-Music在数据服务层通过查询调度来提高数据空间中用户的满意度,在数据管理层通过增量爬取提高top-k查询约束时获取时新数据的效率,在数据获取层通过数据源选择来提高多数据源选择的性能。开发完成的原型系统在实际中得到了应用,本文在Sogou音乐网上爬取到的音乐数据集上1进行了测试,实验结果证明了本文方法在Web数据管理方面的优越性。
其他文献
目前互联网的快速发展,运营商之间的市场份额的抢占变得更为激烈。网络运维系统已经从运营商内部的基础网络维护向着市场业务提供核心服务保障的角色转变,已经从传统的成本中
沙田柚果大形正,幼果生长期恰好遇到多雨高湿季节,果实病虫害多,需要大量、反复喷洒农药,这不仅增加了种植成本,更影响了果实品质。果实套袋是现阶段提升水果品质、降低农药
目的:通过研究现代中医文献总结中医药治疗胃癌的用药特点及规律。为指导临床用药提供一定的参考依据。资料与方法:通过计算机检索近10年中国学术期刊全文数据库(CNKI)、维普中文科技期刊数据库刊登的中药治疗胃癌的相关文献,全面搜索中医药治疗胃癌的随机对照试验(RCT)。通过检索共获得研究文献657篇,经纳排标准筛选后共纳入RCT文献122篇,得到中药组方122个及中药174味,剔除掉使用频次为1次的中
商业飞行已有百余年的历史,但还没有人能解决这个看似简单的问题:每个航班需要携带多少饮料和新鲜食品?$$这是有原因的。根据机型、起飞时间、出发地和目的地的不同,每个航班上的
报纸
“适合的才是最好的”,当企业实施VIS战略时,应如何定位其视觉形.本文通过剖析企业形象需求一的根本所在,寻找企业VIS形象的有效途径.
日本铁路东海公司最近再次实施的超导磁悬浮高速列车载人试验运行,创造了时速603公里的世界高铁最高速度,一举突破每小时600公里大关,更新了该公司在此前创下的590公里的世界纪
报纸
研究生学位论文作为研究生教育中的一个重要组成部分,其中论文选题是学位论文的关键一环。论文以重庆大学建筑城规学院为研究对象,以1987—2015年为研究时段,通过对建筑历史
家庭背景对大学生学业成就的影响是教育学科经典的研究思路,也是需要长期持续关注的议题。研究将家庭背景分为家庭经济收入、父母职业、父亲社会声望和家庭所在地四类,以江苏
信息技术课是一门实践性很强的课程。而互联网、移动互联网、物联网和人工智能的出现改变了人类的沟通方式甚至生活方式。当然,对于教育也必然产生了深远的影响。在新技术背
习近平总书记在十九大报告中提出,各国人民同心协力,构建人类命运共同体,建设持久和平、普遍安全、共同繁荣、开放包容、清洁美丽的世界。这一论断充分阐述了,中国主张从政治、安
报纸