论文部分内容阅读
随着计算机技术特别是数据库技术的发展,用户数据信息以海量形式存在,由此给感兴趣数据的分析与提取带来了诸多困扰,高校图书管理系统即为典型状况之一。一方面,图书馆的读者成千上万,他们性别不同,专业不同,阅读兴趣和爱好也各不相同;另一方面,面对目前出版商和书店堆积如山的图书,如何了解各个专业学生的借阅习惯,借阅习惯与学习成绩间是否有一定关联等,均日益成为图书馆管理层必须面对的一个重要问题。了解并掌握了类似的信息,管理人员就可以有针对性的进行学生借阅习惯的培养与教育,并能充分利用有限的购书经费采购到令读者满意的图书,有利于学生综合能力与成绩的提高,。本文基于本校图书馆的实际业务需要,针对学生借阅信息和学生成绩等信息资源,利用数据仓库、联机分析技术及数据挖掘技术对学生借阅数据进行分析,从而实现对学生借阅状况了解,并力图发现学生借阅习惯与成绩间的关系,进而为后期学生学生借阅习惯的指导与培养、图书的选购等提供相关的参考与支持。文中实现了基于学生借阅信息的数据仓库的设计,并运用DTS工具实现了异构数据转换,解决了大数据量的数据转换及联机分析处理问题。在这个数据仓库上建立了多维数据集,确立了分析维度和度量。从多个维度与不同粗细粒度出发对学生借阅信息进行了多层次的分析,实现对学生借阅信息的联机分析处理和辅助决策支持。针对学生借阅兴趣、习惯及其与成绩间的分析预测问题,本文抽取了部分样本数据,建立了决策树分类模型。模型创建过程中,针对ID3算法的取值偏向问题,使用了基于规则的信息增益度优化算法,对ID3算法进行了改进,同时采用最小支持度策略,对将要构建出来的决策树进行相关预剪枝操作。最后,给出了相关实现与规则分析。实现与实验结果表明,改进的算法及其数据仓库的设计与实现效果良好,能对图书借阅相关管理及其购书规划、学生借阅习惯培养与跟踪等提供有效的帮助。