基于独立成分分析的数据挖掘方法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:zjg760623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘对于寻找商业和科研中的有价值发现具有很大潜力。独立成分分析(Independentcomponentanalysis,ICA)是一种新的数据处理方法,目的是将多维随机向量转换成统计上尽可能独立的成分。目前独立成分分析方法已经广泛引起人们的注意,并已经被成功地应用于语音识别、人脸识别、远程通信、自然图像降噪、神经科学计算和医学信号处理等领域。本论文在独立成分分析的基础上对数据挖掘的一些方法进行了研究,论文的概要如下: 第一章综述了数据挖掘的发展、功能和常用的技术和方法,介绍了独立成分分析的研究及应用现状。 第二章主要阐述了独立成分分析的统计特征、理论模型及独立成分分析模型的几种估计方法。 第三章提出了一种基于独立成分分析的缺失数据值估计模型ICA-MDE。ICA-MDE模型首先对数据进行了抽样与标准化,接着利用设计出的一种指标筛选方法选择出适当的指标,将问题转化为标准ICA问题再进行处理,然后用支持向量机的方法进行密度函数的估计,最后对缺失数据值进行估计。与主成分混合(MPCA)方法和平均值估计方法相比,ICA-MDE具有更好的通用性和更高的估计精确度。 第四章首先在可视化诱导自组织映射(ViSOM)基础上提出了一种改进的数据可视化方法MViSOM,然后在ICA与MViSOM的基础上提出了一个新的数据可视化模型IMViSOM。数据挖掘中高维数据可视化方法ViSOM能将高维数据映射到低维数据,并保持数据之间一定的拓扑结构不变性,但它同时有三个不足之处,一是ViSOM方法中一个非常重要的参数λ目前一般是凭经验确定,因而带有较大的随意性;二是ViSOM方法没有考虑数据之间的相关性;三是当ViSOM输出网络结点太多则会消耗大量内存开销,输出网络结点太少则难以分析数据的可视化结果。与ViSOM相比,IMViSOM方法能较合理地确定参数λ的值,并且在对群聚数据的可视化分类效果及在运算速度方面都优于前者。 第五章在独立成分分析的基础上提出了ISMO与IMVOM两种孤立点挖掘模型。ISMO利用ICA与支持向量机的方法近似估计数据的密度函数,并由各个数据点的密度值大小确定孤立点。IMVOM模型首先利用IMViSOM方法取得数据可视化,并结合了“人类擅长于模式识别的能力”进行孤立点的挖掘。本章中的两个实验结果分别验证了ISMO与IMVOM孤立点模型的合理性。 第六章提出了一种广义带噪的独立成分分析模型GWNICA,并对GWNICA的求解进行了详细的分析和推导,设计出了相应的GWNICA算法。然后在GWNICA与AR(p)的基础上提出了一种金融时间序列预测模型GNI-AR(p)。实验结果显示,GNI-AR(p)对金融时间序列的预测效果要好于AR(p),说明了GWNICA模型与GNI-AR(p)模型的合理性,为时间序列数据挖掘提供了一种有效的方法。
其他文献
三角Bézier多项式函数在函数逼近领域中占有举足轻重的地位,此类函数既继承了多项式函数的诸多优点,同时又克服了多项式函数无法逼近超越函数的缺点.近年来,由于应用方面的要求
在分离的一致空间中定义了算子半群的相关概念,讨论了全有界集与基本有界集、相对紧集的关系,得出了基本有界集与相对紧集等价、相对紧集是全有界集,其中在讨论全有界集与相对紧
首先,利用模糊点与模糊集的邻属关系,给出了(β,α)-模糊映射,(β,α)-凸模糊锥和(β,α)-模糊拓扑的定义,其次,研究了模糊集的范畴,凸模糊锥的范畴和合意集的范畴,给出了中间元和弱
基于断层数据的三维重建是三维数据场可视化技术的主要研究内容,随着计算机技术和图形图像学的发展,医学成像技术也不断得到提高,基于医学断层图像的三维重建已经成为当今计