【摘 要】
:
面对日益增加的数据量,近似查询通过处理尽可能少的数据来获得尽可能准确的结果,相对于精确查询,提高了数据查询的效率。在线聚集是近似查询中一种应用比较广泛的方法,但其使
论文部分内容阅读
面对日益增加的数据量,近似查询通过处理尽可能少的数据来获得尽可能准确的结果,相对于精确查询,提高了数据查询的效率。在线聚集是近似查询中一种应用比较广泛的方法,但其使用效果会受到数据分布的影响,对于非均匀分布数据,可能导致较大的误差,从而需要处理全部或绝大部分数据才能得到较为准确的结果,尤其是当数据量很大时,运行时间无法保证有可靠的上界。而抽样方法可以通过降低数据的规模,从而保证运行时间在可接受范围之内。提出了一种基于分层抽样实现在线聚集的OASS方法,首先基于不同的查询列创建多个不同的分层抽样样本,满足最高精度的查询请求,并且降低了数据的规模,保证时间上界在可接受范围之内。对较低精度的查询请求,通过在线聚集技术,结果的精度可以随着等待时间的增加而提高,并且当用户满意时可以终止查询,另外通过指定持续查询每次处理的数据从每个分层中分别取得,相对原始在线聚集的随机抽样得到的近似结果的精度更高,误差更小,从而降低数据偏斜分布对近似结果的影响,减少了平均运行时间。对OASS方法的关键问题以及具体实现方案进行了详细的阐述,主要包括分层抽样的分层策略,基本域的匹配合并方法,利用倒排索引实现分层抽样的优化方案,持续查询方法的实现,在线聚集的数据访问策略,样本数据的存储方式以及对近似结果的计算与分析。最后通过模拟实验证明了该方法有效地降低了数据非均匀分布的影响。
其他文献
产权制度改革不到位及国有企业公司治理和内控制度普遍不够健全是腐败容易多发的一大重要原因……国有资产的问题始终是国企改革中的核心问题,而国资流失更是社会各界关注的
随钻测量(MWD)技术是实时的将测量数据传输到地面,监控井眼轨迹,指导定向钻进。泥浆连续波传输方式能有效提高井下信息传输速率,发展前景广阔。本文以前人对泥浆连续波传输技
目的探讨家庭中心式护理模式在先天性心脏病患儿介入封堵术中的应用效果。方法选取2015年4月~2017年3月江西省儿童医院心脏病中心收治的80例先天性心脏病介入封堵术患儿作为研
“一贯反对者”规则在中美有关军舰领海通过的分歧中具有重要的作用。中美两国争论的实质是美国军舰是否在中国领海内享有无害通过权。无论某项国际法规则是否赋予了外国军舰
目的:基质金属蛋白酶家族(matrix metalloproteinases,MMPs)是一大类在结构上具有同源性、活性依赖Zn2+或Ca2+的内肽酶。正常情况下,MMPs在众多因素构成的调节网络的调控下,与组织
随着经济全球化的不断加深,资本流通速率的迅速加快,为了寻求生存与发展,企业除了通过业务进行资本积累之外,并购成为了企业重要的对外投资的形式之一。企业以此可以直接得到
【正】 海尔冰箱公司出口美国冰箱的数量创下历史最高记录。六七月份比去年同期增长了82.64%,海尔冰箱公司已成为亚洲继出口德国之后出口美国冰箱数量最多的企业。据美国权威
校企合作的运行机制导向依靠的是市场和社会需求,是校企双方合作培养人才的过程,其着重培养的是学生的就业竞争力,根据学校和企业迥异的教育环境和资源,采用课堂教学与实习教
秘书专业在校大学生处在向职业社会过渡的时期,提高职业意识对于他们求职和就业意义重大。本文分析了秘书专业学生职业意识现状,并对培养秘书专业学生职业意识的策略进行了探
“城中村”,即城市规划区范围内的村庄。一直以来,许多“城中村”不仅用地浪费,影响城市规划合理布局,而且环境卫生脏乱差,社会治安问题频发,成为城市化进程中的老大难。