论文部分内容阅读
面对海量的数据,数据挖掘成为当前研究的热点。在海量数据集上进行数据挖掘,数据挖掘系统的性能成为其应用的主要瓶颈,作为数据密集型应用系统,数据检索是数据挖掘系统中最普遍的操作,也是各个数据挖掘系统性能的主要瓶颈所在。所以如何在数据挖掘系统中对海量数据进行高效管理、快速检索成为高性能数据挖掘系统亟待解决的问题。 本文首先通过对数据挖掘工作流中普遍应用的算法的数据访问模式进行了深入的分析,归纳总结出数据挖掘算法中普遍存在的数据访问模式,以此为依据进行了研究工作。 首先,针对数据挖掘工作流中数据的静态特性和访问的随机性,本文设计了pB+Tree(persistent B+Tree)数据存储结构,该存储结构对数据批量构建索引,构建索引速度快,提高了数据存储的效率,改善了缓存利用率,能够提高数据挖掘应用中数据检索的速度。 其次,针对数据挖掘工作流中的普遍存在的计数查询操作,本文提出了AD-Index(All Dimension Index)辅助数据检索结构,该结构能够高效的完成对数据集的计数查询操作,减少了数据挖掘算法中对数据集的扫描次数,提高了数据挖掘工作流的运行效率。 此外,为进一步提高数据检索的效率,本文针对两种数据结构分别设计了缓存和预取算法,取得了良好的效果。为了验证算法的有效性,本文对两种数据存储结构分别进行了模拟对比试验,试验证明pB+Tree的存储检索效率明显高于同类存储结构,AD-Index对数据挖掘的算法的加速效果也非常明显。 基于以上的研究成果,本文设计并实现了一个面向数据挖掘系统的统一数据管理原型系统,包括了数据存储,缓存系统,内存管理、元数据管理等模块,为数据挖掘系统的设计提供了一个基础模块。