面向多种数据类型的分布式相似性查询技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:cai2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着通信技术和智能移动终端的发展和普及,在许多应用和网站中越来越多的网络用户从单纯的信息“消费者”变成了信息的“生产者”和“传播者”,如微博、博客、微视频等应用。互联网中信息的数据量在飞速增长的同时数据的类型呈现多样化的趋势,基于此用户享受到更加便捷的服务,如基于地理位置的服务,语音查询、图片查询等。面对大规模数据和复杂的数据类型,如何进行有效的管理成为数据库领域的研究热点。本文深入研究了分布式环境下多种数据类型的相似性查询的相关问题,提出了针对各种数据类型的分布式查询框架,进一步提出了相应的NN查询、kNN、RkNN等相似性查询算法。本文的贡献点可概括如下。(1)针对支持树型索引的数据类型,首先,通过分析树型索引的共性特征,包括B-tree、M-tree、R-tree等,提出一种基于Chord拓扑支持树型索引的框架。之后在该框架下,为了协调分布式环境中的查询操作和更新操作,可以根据查询更新模式动态调整索引节点的副本数量,从而实现在更新代价较低的情况下尽可能地提高查询的效率。并进一步提出了范围查询算法和kNN查询算法。最后,为了进一步提高查询性能和更新效率,基于该分布式查询框架提出了动态索引优化方法。(2)针对空间文本混合数据类型,首先,结合空间文本数据类型的相似度计算的特征,提出了一种混合索引方法一hybrid-LSH,hybrid-LSH可以同时考虑空间相似度和文本相似度,以较大概率将相似的数据对象哈希到一个桶中,从而减少I/O代价,并从理论上分析了 hybrid-LSH的准确性和有效性。其次,提出了可以处理变化查询范围的适应性的NN查询算法和kNN算法。最后,结合云计算技术,将算法扩展到分布式环境中,因为hybrid-LSH避免了传统方法的对对比较,而只在各个哈希桶内进行计算,从而大量地节省了计算代价和网络代价。(3)针对带有关联关系的数据类型,首先,通过分析带有关联关系的数据类型的特征,提出了高效的面向该数据类型的分布式管理和查询框架。其次,通过分析决策树计算的特征,提出了高效的分布式决策树计算方法,该方法不需要对数据进行全局排序,而是只需要传输部分数据即可计算出满足质量的约近分裂点,通过理论分析证明了该方法约近的准确性和在计算复杂度方面的高效性。最后,在该框架下提出了基于决策树的相似性查询算法,该算法不需要比较所有的属性即可得出查询结果,从而节省了计算代价。(4)针对不确定性的文本数据类型,首先,通过分析不确定文本数据的余弦相似度计算的特征,提出了高效的相似度计算方法和改进的索引结构sMVP-tree。其次,因为余弦距离不属于度量距离函数,很难对数据构建索引,而且传统的方法主要侧重于集中式环境,本文通过对余弦距离计算进行转换并提出了基于余弦相似度面向不确定性文本数据的相似性查询框架。最后,给出了基于sMVP-tree的查询过滤方法,并结合该相似性查询框架提出了分布式环境下面向不确定文本数据类型的kNN查询和RkNN查询算法。
其他文献
随着移动计算机日益广泛的使用和人们对网络依赖性的增加,如何让人们能够随时随地的访问Internet,在移动的过程中保持通信不间断已经成为当前Internet技术研究的关键问题.传
随着计算机技术和电信技术不断发展和进步,加上日益旺盛的社会需求的持续推动,呼叫中心行业一直处于高速发展。但是多年以来呼叫中心的建设模式还是以自建为主,其高昂的建设
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。被信息产业界认
该文首先简要介绍了机器翻译技术的发展现状和几种主流的机器翻译方法,探讨了基于规则和基于统计两种主要的语言模型,对基于这两种语言模型的盲汉翻译方案进行分析和比较,论
该系统是与秦皇岛交通局运管处合作开发的,目的在于开发一套完整的物流管理信息系统,以适应当前物流业的需要和中国加入WTO的需要.该文详细阐述了基于B/S模式的面向业务对象
目前,国外在建立微波元器件神经网络模型时大都采用最速下降法,并且是step-by-step方式,存在着收敛速度慢、需要人工干预的问题.针对这些问题,我们对常用的前馈神经网络训练
贝叶斯网络是一种建立在概率和统计理论基础上的数据分析和辅助决策工具,以其坚实的理论基础、自然的表示方式、灵活的推理能力和方便的决策机制受到越来越多研究学者的重视.
该论文首先分析了现代远程教育的资源状况.当前远程教育,虽然拥有丰富的教育资源,但是由于资源格式的复杂多样,资源建设缺乏规范化,使得用户无法获取、重用这些网上的丰富资
在针对公安部门开发的《移动警务助理嵌入式信息系统》系统中,其数据记录有30多万条,该系统由是由PC端和PDA端的两部分应用程序组成两部分软件可以通过串口或USB,或网络等设
该论文围绕决策及决策支持领域各种信息集成技术和方法进行了研究.这里的信息集成具有两层涵义:一是决策支持系统中各种信息的集成,所集成的信息包括功能模型、数据和知识等;二