论文部分内容阅读
当前,数据的急剧增长和人们对数据理解的困难形成了强烈的反差,数据挖掘技术便应运而生。聚类分析是一种最重要的数据挖掘技术,根据数据的内在特性将数据对象划分到不同的类中,使得同一类中的数据对象具有最大的相似性,而不同类中的数据对象具有最大的相异性。由MacQueen提出的K-means算法是解决聚类问题的一种经典算法,广泛应用于数据挖掘与知识发现领域。但是,K-means算法存在两大缺陷,一是K-means算法的聚类结果依赖于初始值的选取,二是基于梯度下降进行搜索常常使K-means算法陷入局部最优。在分析相关研究的基础上,提出一种基于粒子群和模拟退火(SimulatedAnnealing,SA)协同的K-means聚类算法,简称PSK-means算法,并将新改进的PSK-means算法应用在两个不同的系统中,本论文主要工作包括:(1)针对K-means算法和粒子群算法的缺陷,利用模拟退火算法的概率突跳性,提出一种基于粒子群和模拟退火协同的K-means聚类算法,克服粒子群算法易陷入局部最优的缺陷,优化全体粒子的历史最优解,进而优化聚类中心达到最优的聚类结果,并进行了仿真实验,验证算法具有良好全局收敛性。(2)将PSK-means算法应用在计算机实验辅助教学与质量评价系统中。在系统评价模块产生许多评价数据,包括对教师的评价和对学生的评价。论文以对学生的评价为例,先对评价数据进行预处理,得出学生的最终评分。再使用PSK-means算法对数据进行聚类,并对聚类结果进行具体分析。针对每一类学生在学习中存在的问题进行针对性的指导,可以大大节省时间,有效提高教学质量。(3)将PSK-means算法应用在山东省名老中医医案数据中。山东省名老中医医案系统中医案数据杂乱,包括冠心病和高血压等多种疾病。先对医案数据按疾病种类进行选择性提取,再对同一种病的药方数据使用PSK-means算法进行聚类,将药方按中医上的证型分类。聚类后的数据使用Apriori算法进行强关联规则挖掘,挖掘出不同证型的核心药方,为年轻中医医生提供学习参考,且对中成药的制作具有一定的价值。