基于ELM和PNN的样例选择研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:wangxiang62
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
样例选择是数据挖掘中一个重要的数据预处理步骤。大多数样例选择算法选择边界样例,边界样例的不确定性大,包含的有用信息更多,因此对分类更重要。目前存在的多数样例选择方法都是针对某种特殊的分类器设计的,比如最近邻(NN)分类器,支持向量机(SVM)分类器。然而NN分类器要计算任意两样本的距离,因此时间和空间复杂度都很高,SVM的训练时间复杂度也较高。如何能力保持的前提下,有效地降低其训练时间并得到较小的一致子集是样例选择研究的热点。极端学习机(ELM)随机指定权值和偏置,以学习速度快,泛化能力强而著称。PNN输出结果为后验概率,学习速度也非常快,并且能够得到贝叶斯最优判别边界。基于它们的特点本文提出了两种样例选择算法:基于ELM的样例选择和基于PNN的样例选择。在两种方法中都利用样例熵来度量其不确定性,并与当前的样例选择算法进行了实验比较,并对实验结果进行了统计分析。实验结果显示,两种方法都是行之有效的。第一种方法大大减少了样例选择时间,与其它算法相比具有明显优势,统计分析结果也验证了其保持了分类测试精度。第二种方法能够保证分类器性能与此同时在样例选择时间,样例压缩比例间做出平衡,优于其它几种方法。
其他文献
随着传感器技术的日益普及和信息社会的快速发展,许多新兴应用领域中出现了实时连续、海量无限和快速变化的数据,这些数据以不同的更新速率连续地流进和流出计算机系统,学术界将
随着计算机网络技术和多媒体信息处理技术的迅速发展,我们能够越来越方便地创造、存储、编辑和传播数字多媒体信息。但是,技术发展的同时也带来了一系列信息安全问题,如多媒体信
无线传感器网络是一种新型的信息平台,它由在一个广阔的监测域内部署密集的传感器节点组织而成,这些节点具有价格低廉,自组织能力等特点。传感器节点将感知信息通过多跳路由的
随着全球信息化的推进,我们的社会正在步入一个信息化的社会,政府机构以及各行各业都对信息资源、信息技术以及信息产业的依赖程度越来越大,对存储空间的需求也在飞速地增长
粗糙集理论作为一种重要的智能信息处理技术,在知识获取领域得到了广泛应用。经典粗糙集理论的核心概念是上近似集和下近似集,是应用精确集合包含来定义上近似集和下近似集的。
信息通信技术的融合与发展已经从多方面推动人们生活方式的变革,购物方式的转变便是其中典型的一个。伴随着电子商务的不断发展和完善,加上网上购物有着传统购物不具有的便捷、
在生物特征识别领域,人脸识别是最具潜力的一个研究课题。由于它涉及诸多学科领域的知识,同时在国家安全、军事安全和经济领域等有着广阔的应用前景,因而有巨大的理论意义和实际
病毒和病毒防御技术一直是互相对抗同时又互相促进地发展着。病毒总数量的剧增和病毒进化程度的提高,使得传统病毒防御系统越来越难以及时地发现和清除病毒,病毒的误报和漏报
密码学分为传统密码学和现代密码学,其主要任务就是在不安全的环境中保证通信的安全。在密码学中,无论哪种密码体制,密钥的安全性决定了整个密码系统的安全性,密钥的泄漏意味
利用数字图像处理技术进行土壤物理属性及形态结构特征的研究是当前农业科学与计算机科学的热点问题之一。研究土壤物理属性在土质研究与改良、土工力学等方面具有重要的意义