论文部分内容阅读
随着图书馆资源的日益增加,读者在海量的图书资源中难以快速、有效地寻找到适合自己的书籍,因而本文尝试将数据挖掘技术应用到图书管理系统中,利用关联分析方法挖掘出图书借阅行为模式,为读者推荐书籍,指引读者的借阅行为。Apriori算法是关联规则挖掘中最经典的算法之一。但Apriori算法在逐层迭代时出现的每个候选项集都需要扫描一次数据集才能确定是否为频繁项集。根据这个弊端,提出一种具有跳跃式前进与回退补齐的改进算法。改进的算法减少了扫描数据集的次数。实验表明改进的算法有效地提高了Apriori算法的效率。其次,提出基于云计算平台,应用布尔矩阵Apriori算法进行大数据关联规则挖掘的并行化算法,将Hadoop平台与布尔矩阵Apriori算法相结合,利用MapReduce框架分块处理布尔矩阵,计算出分块数据集的支持度计数,合并融合得到大数据集的频繁项集。分析表明该算法能够适用于大数据的频繁项集挖掘。最后,通过分析图书管理系统,编写Linux脚本和PLSQL存储过程,完成数据抽取、清洗、转换的预处理工作,并利用改进的算法完成图书借阅行为模式的挖掘工作,最后用Java Web技术结合Hibernate框架和Flex框架将图书借阅行为模式可视化。