论文部分内容阅读
数据挖掘是近年来一个十分活跃的研究领域。近几年,从事数据挖掘研发的人员遍布世界多个国家,数据挖据的研究重点也已从算法研究向具体应用过渡,从实验室原型走向商品化阶段。目前几种典型的数据挖掘研究是关联规则、分类、聚类、预测以及Web挖掘等。数据挖掘算法中的支持向量机算法,在通过若干学者的改进研究后,有一种改进算法即序列最小化算法主要应用于小样本数据集的分类,且分类效果较好,但在训练大规模数据集时,用时长、所需存储空间大,挖掘效率低。本文首先对数据挖掘的相关知识进行了介绍,以及二次开发平台WEKA的介绍,其次,对数据挖掘中的聚类算法和分类算法之一的支持向量机算法进行了仔细的介绍和推理过程,为糖尿病数据分析和序列最小化算法的推导做好了铺垫。接下来仔细介绍了糖尿病数据聚类分析过程,对现有的糖尿病数据集进行一些聚类实验,得出了一些相关结论。接下来仔细介绍序列最小化算法的原理和推导过程。再讨论了序列最小化算法的缺陷和不足,针对这一缺陷,本文通过改变存储策略改进该算法,在WEKA这个软件平台下,在保证分类正确率的前提下,缩短了训练时间,缩减了大量的存储空间,大大地提高了算法的效率,使其更加适应大规模数据集的训练。最后,对本文的研究进行了总结,并对未来进一步的研究工作进行了展望。