论文部分内容阅读
针对大数据对政府统计工作影响越来越大的现状,文章提出了一种基于稀疏表示的大数据统计算法框架。首先利用了有放回Bootstrap在数据中的样本和特征上采样形成不同数据子集。用多形态保留相似性方法融合子集中的异构数据,再在融合数据上作数据变换使得数据方便处理和富有信息,最后将变换后数据形成基元字典,基元字典加权构成稀疏表示的字典矩阵。建议算法在加利福尼亚大学机器学习UCI数据库中的Gisette和Internet Advertisements两个数据集进行了大量实验,实验表明,建议算法在数据集都具有最高的分类