选择性聚类集成算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:storm369
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据采集和数据存储技术的飞跃发展,用于机器学习的数据集规模越来越大,利用单个学习器不一定能很好地解决某些学习问题。为了能够提高学习器的泛化能力,有学者提出用集成学习技术联合基学习器来解决同一个问题。现今,集成学习技术已经广泛地应用于传感器故障容错、手写字符识别、生物认证、辐射源识别、语言学、交通、医学、管理学等各个领域。聚类集成学习目的是通过对多个互补的聚类结果的集成来得到一个高可靠性的识别系统,旨在产生泛化能力强、差异大的多个成员聚类器,充分发挥每个成员聚类器在各自聚类性能上的优势,获得比单个成员聚类器都要高的聚类结果。一般通过提高成员聚类器的聚类性能以及增加成员聚类器的多样性来达到提高集成性能的目的。传统聚类集成学习算法不能充分利用数据集特点及个体聚类器的性能差异来提高聚类集成的整体性能,一般表现在:第一,由于聚类是一种非监督的学习,因此忽略了数据集中少量带标记的样本,给个体学习器的结合带来困难。第二,在聚类集成的过程中,各个成员聚类器承担相同的角色,即将所有的成员聚类器全部用于集成,而没有考虑选择部分个体聚类器构建集成的性能是否会优于选择所有个体聚类器构建集成的性能。针对以上问题,本文紧紧围绕选择性聚类集成这一课题,旨在分析研究如何实现选择部分成员聚类器,来提高集成聚类器的整体性能。充分利用训练样本集中的数据特征,利用少量带标记的数据及相关信息,提高聚类的精度和效率。具体来说,本文进行了以下工作:1.简要介绍了集成学习的基本概念及研究现状;介绍了集成学习中比较有代表性的几个算法以及当前聚类集成学习中存在的问题和该文的研究目的。2.提出一种基于Bagging的选择性聚类集成算法,该方法首先将原始数据集等量划分,再利用Bagging算法中的可重复取样技术对原始的数据集进行随机抽取并将其分配到各子集中,应用一种改进的K均值算法在这些数据集上生成成员聚类器;然后引入互信息[6]的概念将多个聚类结果进行处理;最后,对有争议的数据对象计算其与聚类中心的距离,将其重新划分到新的聚类结果中。实验以Weka软件作为平台实现了该算法,并在10个特征不同的数据集上进行实验,结果表明,该算法与SimpleKMeans算法相比,具有更高的聚类准确性。3.提出一种基于分类的半监督聚类集成算法,该方法首先训练一个弱分类器,对原始数据进行粗分类,然后对传统K均值聚类算法进行优化并处理分类结果,用一种新的K-meansGuider方法对分类结果进行聚类,最后对预聚类结果进行集成。该算法在聚类过程中充分利用了数据集中的标记数据,提高了聚类的精度和效率;通过改变初始点的选择方法扩展了传统K均值聚类算法,已标记的数据指导了初始类簇的形成;可以发现任意形状的类簇,并对噪声数据不敏感,该算法同样以Weka软件作为平台,且在15个特征不同的数据集上进行测试,结果表明该算法具有更高聚类能力。
其他文献
随着Web技术及其应用的快速发展,XML已经成为万维网上信息表示和数据交换的一个重要标准,XML在电子商务、电子数据交换、科学数据表示、数据建模与分析和搜索引擎等领域有着
视频序列中运动目标跟踪技术是计算机视觉领域最活跃的课题之一,它涉及到图像处理、模式识别、自动控制等诸多领域,具有较强的研究价值。基于粒子滤波理论的目标跟踪算法是一
句法分析是自然语言处理的关键技术之一,其主要任务是消除句子中由词法和词组结构引入的歧义问题。句法分析对自然语言处理起着至关重要的作用。一方面,句法分析能够有效地验
随着计算安全的深入,不但软件安全,硬件安全或防范物理攻击,也越来越受到重视。SMP系统作为重要的商用平台,增强其防范物理攻击具有重要的意义。防范物理攻击最基本的技术手
多核处理器技术成为处理器设计的主流,随着内核数量的增加,处理器功耗密度随之增长。引入相应策略对多核处理器进行功耗管理是必要的。现有的处理器大都采用硬件的动态电压和
目前很多实时系统以空前速度产生巨量的数据,这对数据挖掘方法研究一直是一种挑战。常见的数据流包括网络事务日志,电话接听记录,信用卡交易事务流,传感器记录数据流等。这些
生物特征识别技术利用人体本身所拥有的生理特征或行为特征进行自动身份识别,具有很高的安全性。现在生物特征识别系统通常直接在模板数据库或Smartcard中保存原始生物特征,这
基于服务的软件系统(SBS)通过调用远程服务而完成特定功能,是由相互作用和相互依赖的若干原子服务组合而成的有机整体,通过对其进行抽象建模得到服务网络模型,目前关于服务网
现有的经典信息安全主要研究黑客、木马、病毒等外部攻击威胁,往往忽视了通过公司、单位内部员工发生的泄密事件,数据表明,绝大部分的泄密事件是由后者所引起的。近年来,随着内网
在现代信息社会中,数字签名技术已经被广泛的应用于各个领域以提供数据一致性校验和授权认证。在标准的数字签名中,任何人都能够验证签名的有效性,然而在很多应用中我们需要