基于随机森林的高维数据可视化

来源 :计算机应用 | 被引量 : 1次 | 上传用户:songshuguiyu00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前对高维数据进行挖掘的方法大多是基于数学理论而非可视化的直觉。为便于直观分析和评价高维数据,提出引入随机森林(RF)方法对高维数据进行数据可视化。首先,采用RF进行有监督学习得到样本间的相似度度量,并采用主坐标分析法对其进行降维,将高维数据的关系信息变换到低维空间;然后,在低维空间中采用散点图进行可视化。在高维基因数据集上实验结果表明,基于RF有监督降维的可视化能够较好地展现高维数据的类分布规律,且优于传统的无监督降维后的可视化效果。
其他文献
为了平衡水印的透明性和鲁棒性,提出了基于果蝇优化算法(FOA)的小波域数字水印算法。该算法利用果蝇优化算法将离散小波变换(DWT)应用到水印技术中,通过群体智能算法解决水印的透明性和鲁棒性之间的矛盾。为了保护数字图像的版权信息,将所选择的原始图像通过二维离散小波变换分解,然后将经过Arnold变换后的水印图像较优地嵌入到小波的垂直子带系数中,这样可以保证图像的质量。在优化过程中,缩放因子是通过FO
简单随机抽样是在分析处理大规模数据集时最常用的数据约简方法,但该方法在处理内部分布不均匀的数据集时容易造成类的丢失。基于固定网格划分的密度偏差抽样算法虽能有效解决该问题,但其速度及效果易受网格划分粒度影响。为此提出了基于可变网格划分的密度偏差抽样算法,根据原始数据集每一维的分布特征确定该维相应的划分粒度,进而构建与原始数据集分布特征一致的网格空间。实验结果表明,在可变网格划分的基础上进行密度偏差抽
针对以往的多智能体蜂拥控制算法在考虑单个目标追踪情形时不具普适性,以及现有的多目标蜂拥控制都是基于全局目标信息来进行集中式协调控制,而非基于局部目标信息下的分布式协调控制的问题,提出一种融合局部自适应检测机制的分布式协同牵制蜂拥算法。首先,算法在分离、聚合、速度匹配和引导反馈的基础上,引入局部自适应追踪策略,实现智能体的局部动态跟随运动;其次,受牵制思想启发,根据节点影响力指数评估算法选取m个信息