论文部分内容阅读
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,被信息产业界认为是数据库系统最重要的前沿之一,是信息产业界最有前途的交叉学科。在各高校实际的教学评价中,存在着很多问题,面对历年来积累的大量教学数据,而传统的教学评价手段显的无能为力,而数据挖掘这一技术就解决了这一难题。聚类方法是数据挖掘中一个重要的研究内容。本文对数据挖掘技术尤其是聚类挖掘技术进行了系统、深入地分析和研究,并将其投入到教学评价中。主要包括以下一些内容:首先对数据挖掘技术进行了简要的回顾,在提出数据挖掘基本概念的基础上,对数据挖掘可发现的模式进行了详细地分类、归纳和总结。对数据挖掘的体系框架及运行过程也作了详细的探讨。对数据挖掘技术的国内外研究现状和当前的研究热点进行了归纳和总结。为本文的全面展开奠定了基础。然后重点讨论了聚类算法。k平均分区算法和层次凝聚算法是数据挖掘研究的重点之一。这两种算法的应用极为广泛。然而随着应用的深入,这两种算法也暴露了一些不足之处。例如:层次凝聚算法由于在每次分区合并时,需要计算单链接距离(或全链接距离),耗费了大量的时间,其时间复杂度为0(n2)。并且一旦一个合并完成,它不能被撤消,然而对k平均分区算法来讲,它有一个最大的优点是不必在指定分区数。但是k平均分区算法的缺点是必须事先设定分区数k。这一点对用户来讲,是相当不合理的。在k平均分区算法中,初始分区的选择不当的话,将会收敛成为一个局部最小的准则,找不到最优解。针对上述情况,本文提出了一种新的改进算法(NP算法)。本文提出了一种新的改进算法(NP算法)。将数据挖掘技术应用到实践中,对潍坊学院的成人教育数据进行挖掘,基于MS Analysis Services挖掘工具,通过决策树分析、聚集分析等方法研究而得出的有关学生的特征,如:年龄小于或等于30岁的女生学习成绩的综合表现多偏向于中,年龄大于30岁的男生学习成绩表现偏向优秀的可能性较大等特征将会提供给学术顾问,以便潍坊学院的教务处发现成人教育存在的问题与规律,针对学生的不同特征进行综合分析后对学生的选课提出指导意见(数据以潍坊学院成人教育教育管理专业的为例)。采用数据挖掘软件SPSS对潍坊学院近几年教育技术学专业的相关数据进行统计分析,挖掘数据背后隐藏的信息与知识,揭示若干教育现象,如:在毕业论文方面:男女生之间存在显著性差异,再如在等级考试方面:男女生之间存在显著性差异,女生的成绩明显高于男生。并为潍坊学院的教育决策支持提供若干参考建议。