论文部分内容阅读
聚类分析作为数据分析和数据挖掘中的一种重要方法,已经被广泛应用于市场分析、金融分析、图像处理等行业。作为一种无监督的统计学习方法,聚类在对无序和无先验信息的对象处理中意义重大。特别是在大数据时代,数据有着数据量大及价值密度低的特点,聚类分析就显得日益重要了。聚类分析发展比较迅速,算法比较丰富。聚类融合算法从A.L.Fred和A.Strel提出以来,由于其比一般的聚类方法有更好的特性,深受到人们的重视。在移动互联网的快速发展中,手机应用软件(App)变的数目众多,而质量却参差不齐。对App进行市场细分就显得日益迫切。本文主要在K-means加权聚类和K-means加权聚类融合算法的基础上,结合实际数据的结构特点,根据聚类在不同阶段聚类对变量的敏感程度不同,建立了一种分阶段的K-means加权聚类融合的方法。该模型在加权聚类的权值不能准确量化的情况下,模型聚类效果较好。然后选取2016年1月1日至2016年12月31日的App的数据,对数据进行清洗变换,形成能够代表App价值的截面数据。再根据App数据的特点,利用相关性分析,选择出表现App的接触能力变量平均规模、复合增长率等变量。最后使用传统的K-means、K-means加权聚类和聚类融合的方法以及改进的分阶段聚类方法对App数据进行模拟,对其分类结构进行评价,从而得出改进的模型分类效果较好。然后根据分类结果提取出六大类型特征。最后根据六种特征提出它们的应用场景和进一步研究的方向的建议。