论文部分内容阅读
近年来,由于计算机和信息技术的快速发展,人们需要花费昂贵的代价收集、存储和处理海量的数据。如何“去粗取精”,从中发现有用的信息,已经成为一个迫切需要解决的问题。数据挖掘技术在这种背景下应运而生。数据挖掘的定义就是:在数据库中发现有用的、潜在的、最终可理解的模式的非平凡过程。它是一门内容广泛的交叉学科,涉及机器学习、数学规划、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。数学规划是运筹学一个重要分支,在机器学习、网络问题、博弈理论与经济学、工程机械学等领域有着广泛而重要的应用,是国际上最活跃的运筹学研究领域之一。现在,数学规划得到极大的发展,和其他学科结合形成新的研究领域,并不断在新的领域找到应用。数学规划和数据挖掘技术的结合已使大规模和高复杂性的问题的解决成为可能。数学规划在特征提取、聚类和回归等方面有很重要的应用,而这些都是数据挖掘亟待解决的问题。本文主要致力于支持向量机、近似支持向量机的学习算法研究,特征提取的数学模型与算法的改进及其应用,聚类分析算法的收敛性证明。支持向量机是数学规划在数据挖掘领域的一个重要应用。支持向量机是Vapnik等人根据统计学习理论提出的一种新的机器学习方法,其本质是数学规划中的二次规划。如何准确、快速求解二次规划是支持向量机研究的基本问题,而这些问题的解决与数学规划中的优化理论密切相关。本文研究了支持向量机与近似支持向量机的在线学习算法,并将支持向量机增量学习算法应用于蛋白质二级结构预测,取得了很好的结果。特征提取指的是意识到存在无关而多余的特征并要剔除它们,同时对两个集合进行区分。现存模型在区分高维数据(例如脑科学中几十万维的数据)时需要的时间和空间代价很高,因此需要对有用的特征进行提取。本文对已有支持向量机的特征提取方法进行了改进。最后将本文的方法应用于一个经典的著作权分析问题-The DisputedFederalist Papers-通过与已有机器学习结果不同的特征得到了与经典著作权分析方法相同的结论。聚类分析也是数据挖掘中比较常用的方法,它是一种无监督的学习方法。本文给出了一种k-means聚类分析算法的收敛性证明,为算法的使用提供可靠的理论保证。数据挖掘中若干数学模型与算法研究 本文的意义在于:改进数据挖掘中若干数学模型和算法,提高了它们对现实数据的适应性;尝试将这些方法应用于新的领域,拓宽了它们的使用范围;给出了一种聚类算法的收敛性证明,为算法提供可靠的理论保证。关键词:数据挖掘;数学规划;支持向量机;在线学习;增量学习:特征提取:聚类分析