论文部分内容阅读
大数据时代,各种数据类型层出不穷,面板数据一度成为关注度高、研究热门的数据类型,聚类作为多元统计和数据挖掘中常用的一种技术手段,频繁出现在面板数据的预处理与基础分析中。然而,实际问题背景与侧重角度不同,将会导致现有面板数据聚类方法失效。根据实际问题,提取相应的数据特征,利用提取的特征进行聚类,将使聚类方法更加具有针对性,其效果更理想。本文从实际数据的特征出发,针对面板数据聚类问题进行了相关研究,由此提出了两种适用于不同类型面板数据的聚类方法,通过实证分析检验聚类方法的应用效果与适应性,其结果表明两种聚类方法均能取得很好的效果。具体来讲,本文的主要内容包括以下四个部分:第一、梳理了面板数据聚类方法的发展历程与研究现状,并设计出本文所采取的研究路线,总结了面板数据的类型与数据标准化方法,给出了主成分分析、小波分析、熵值法、系统聚类法等基本原理;第二、改进了一种基于特征提取的面板数据聚类方法(PCA聚类法)。首先运用主成分分析法对前人提取的指标特征进行二次提取,然后对二次提取后的特征采用熵值法赋权,并利用系统聚类法对赋权后的特征进行聚类,通过房地产业面板数据验证了该方法的有效性;第三、提出了一种基于小波特征提取的面板数据聚类方法(WLT聚类法)。运用主成分分析法使面板数据降维成时间序列数据,并依据小波理论提取时间序列数据的主要特征,再对其进行熵值法赋权,运用系统聚类法对赋权后的特征量进行聚类,经股票面板数据验证了该方法的有效性;第四、通过不同数据的交叉对照实验检验出PCA聚类法与WLT聚类法的适用性。经实验验证,WLT聚类法比较适合于时期较长且波动频繁的多指标面板数据,PCA聚类法比较适合于时期较短且波动不频繁的少量缺失数据的多指标面板数据。