面向数据挖掘工作流的快速数据检索技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：langjitianya198411

【摘要】

：

面对海量的数据，数据挖掘成为当前研究的热点。在海量数据集上进行数据挖掘，数据挖掘系统的性能成为其应用的主要瓶颈，作为数据密集型应用系统，数据检索是数据挖掘系统中最普遍的

【作者】

：

李力召

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2008年期

【关键词】

：

数据挖掘工作流存储结构检索效率扫描次数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面对海量的数据，数据挖掘成为当前研究的热点。在海量数据集上进行数据挖掘，数据挖掘系统的性能成为其应用的主要瓶颈，作为数据密集型应用系统，数据检索是数据挖掘系统中最普遍的操作，也是各个数据挖掘系统性能的主要瓶颈所在。所以如何在数据挖掘系统中对海量数据进行高效管理、快速检索成为高性能数据挖掘系统亟待解决的问题。　　本文首先通过对数据挖掘工作流中普遍应用的算法的数据访问模式进行了深入的分析，归纳总结出数据挖掘算法中普遍存在的数据访问模式，以此为依据进行了研究工作。　　首先，针对数据挖掘工作流中数据的静态特性和访问的随机性，本文设计了pB+Tree(persistent B+Tree)数据存储结构，该存储结构对数据批量构建索引，构建索引速度快，提高了数据存储的效率，改善了缓存利用率，能够提高数据挖掘应用中数据检索的速度。　　其次，针对数据挖掘工作流中的普遍存在的计数查询操作，本文提出了AD-Index(All Dimension Index)辅助数据检索结构，该结构能够高效的完成对数据集的计数查询操作，减少了数据挖掘算法中对数据集的扫描次数，提高了数据挖掘工作流的运行效率。　　此外，为进一步提高数据检索的效率，本文针对两种数据结构分别设计了缓存和预取算法，取得了良好的效果。为了验证算法的有效性，本文对两种数据存储结构分别进行了模拟对比试验，试验证明pB+Tree的存储检索效率明显高于同类存储结构，AD-Index对数据挖掘的算法的加速效果也非常明显。　　基于以上的研究成果，本文设计并实现了一个面向数据挖掘系统的统一数据管理原型系统，包括了数据存储，缓存系统，内存管理、元数据管理等模块，为数据挖掘系统的设计提供了一个基础模块。

其他文献

基于软交换呼叫中心的ACD模块设计与实现

传统的呼叫中心主要针对电话用户进行服务,随着实际生活中语音网从传统单一向开放、互连的一体化网络的转变,传统呼叫中心已不能满足日益多样化的用户需要。本文使用软交换关

学位

软交换呼叫中心H.323ACD

关于信息物理系统安全的关键问题研究

信息物理系统（Cyber-Physical System，CPS）被定义为提供计算、网络和物理过程的集成的系统。CPS领域已被确定为研究的一个关键领域，预计CPS将在未来系统的设计和开发中发挥重要作

学位

信息物理系统硬件安全数据处理神经网络深度学习

基于内容的多媒体课件检索的研究与实现

在过去的几十年里,在线多媒体学术课件的应用取得了巨大增加,这些教育资源潜在地改变着人们的学习方式,而且随着文本检索技术和语音识别技术的日益成熟,如何更有效地在这些多

学位

语音文档检索音频索引后验概率子词索引模型自适应

基于自适应策略的MANET路由协议研究

随着无线自组网(MANET)应用的发展,传统的路由策略已经不能满足日益丰富的网络服务,尤其是在应对网络拓扑变化等不利因素时,传统路由协议更存在很多弊端。自适应策略逐渐得到

学位

移动无线自组网路由自适应策略退避

用户驱动型NDN智能家居控制系统的设计与实现

智能家居是物联网的热门领域之一，具有数量庞大及资源意义广泛的智能终端。由传感器产生的大量数据的网络传输和归类整理，以及终端资源意义的不断扩展都成为了智能家居的现有问

学位

智能家居控制系统软件设计功能模块命名数据网络

非结构化P2P拓扑匹配逻辑网络的构造与搜索优化

非结构化P2P (Peer-to-Peer)网络以其可靠性高、维护性好等特点在资源信息共享领域得到了广泛的应用,但网络中节点在对底层物理网络所知甚少的情况下任意选择逻辑邻居节点以

学位

P2P(Peer-to-Peer)洪泛拓扑匹配最小生成树

面向数据挖掘工作流的快速数据检索技术

其他学术论文