不确定数据库中Top-k查询研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:qrl307821498
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘、传感器网络、数据检索等应用中产生了大量的不确定性数据,它广泛地存在于金融、军事等领域中。不确定性数据带给用户的信息是不准确的,但是如果直接丢弃或者清洗这些不精确的数据,将会导致一些重要信息的丢失,所以必须对这些不确定性数据进行有效地管理和存储,从中找出有用的信息。不确定数据库就是用于管理这些不确定性数据。Top-k查询是查找出用户最关心的前k个数据,该查询技术在传统的关系型数据库中得到了非常广泛地应用,它对精确数据的Top-k查询的语义是非常明确的,查询出的结果也是精确无异议的。不确定性数据由于本身具有不确定性,不确定数据库中的元组也具有可信度和元组规则这两个特征,在Top-k查询中,必须综合元组的分值和概率值,它们共同决定Top-k查询的最终结果,故传统的针对确定数据Top-k查询不能够直接应用在不确定性数据上。研究者们提出了很多在不确定数据库中实现Top-k查询的算法,这些算法有不同的语义环境,而且它们没有很好的综合不确定性元组的分值和概率值,查询出来的结果也就不能更好地满足用户的需求。不确定数据库中的Top-k查询需要更进一步的研究。本文首先研究分析了不确定性数据和不确定数据库,对不确定性数据建模,在模型基础之上,定义了针对不确定数据库的Top-k查询语义,该语义是明确不具有歧义性的。新语义下,查询结果返回k个元组,在计算排名第i位的元组时,把第i位概率值最大的元组和第i-1位概率值第二大的元组进行比较,返回一个最优的元组最为第i位的最终结果,这样就更好的权衡了不确定性元组的分值和概率值。此外,用户才可以根据自己的需求定义一个阈值,返回的元组的概率值均大于阈值。新语义从根本上保证了该算法能很好的综合了不确定性元组的分值和概率值,能够更好的满足用户的需求。然后具体实现了算法。利用两种优化策略来对算法进行优化,避免了数据建模导致的可能世界空间实例的指数倍增长带来的算法运行时间过长问题,降低了访问元组的深度,使算法效率更高。最后通过实验论证,证明了在不同的数据集上,该算法是有效的、具有可行性。
其他文献
随着生物信息学的发展,生物医学数据呈爆炸式的增长,目前已经拥有数百个活动的生物医学数据库,如何管理和分析这些海量的数据已成为研究的重点。数据挖掘技术用于发现大量数据所
室内电波预测由于不同室内环境的复杂性而出现了较多的预测模型。电磁波传播理论与数值分析方法为基础的确定性射线跟踪模型,依靠现有的计算机技术能够较好的预测电波数据。射
随着计算机技术的飞速发展和生活水平的提高,人们在许多领域对信息安全要求越来越高,例如用计算机对小区进行智能监控,不仅节约人力资源和成本,也为日后案件的调查提供证据。
蛋白质折叠结构预测问题是当前生物学研究的一个热点。由于其特殊的结构和所使用的模型限制,利用NP问题的求解来求其最小能量值从而推测出折叠结构是这个问题的研究方向之一。
随着计算机网络在各个领域中的广泛应用,产生了庞大的网络信息,其中,以手机短信、QQ聊天记录、博客评论、新闻评论等短文本形式存在的信息也得到了空前的膨胀,如何对这些以短文本
近年来,越来越多的以短文本(通常文本长度小于160字符)形式存在的信息逐渐成为了人们获取消息的主要途径之一,如:微信,微博,网络评论,网络聊天以及搜索引擎返回的网络片段等等。所以
Internet技术和无线通信技术已经成为目前世界科学技术发展中最为活跃的领域之一。人们对移动性和信息的需求也在急剧上升。越来越多的人希望移动过程中不用更改计算机配置就
在互联网高速发展的今天,推荐系统能够缓解用户筛选感兴趣内容时的困扰,帮助用户发现有价值信息,已成为解决信息过载的有效手段。推荐系统中的协同过滤算法,因其领域无关性及
据2013年互联网数据中心报告显示,预计到2020年全球的数据总量将超过40ZB,这一数据量是2011年的22倍,如何从海量数据中快速抽取出用户所需要的信息是一个重要的研究课题。关
语音信号是人们构成思想疏通和感情交流的最主要的途径。传统的语音处理系统大多只着眼于语音词汇传达的准确性,而忽略了包含在语音信号中的情感信息。让计算机能够像人一样说