聚类技术及其应用研究

来源 :福建师范大学 | 被引量 : 0次 | 上传用户:zhangjianfa11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法研究是机器学习和数据挖掘的核心研究内容,已经吸引了无数的研究者为之努力。聚类是无监督学习的代表,在聚类算法中,数据之间的相似度是根据描述对象的属性值来计算的,选择适当的相似性度量是保证聚类质量的重要问题。但是,传统的基于距离的相似性度量不适用于高维的、包含混合类型的数据集。同时,传统的机器学习方法大多只考虑有标签数据或者只考虑未标签数据,而在真实问题中往往是二者并存,如何更有效地利用这些数据成为当前的研究热点之一。能够同时利用标签数据和未标签数据的半监督学习应运而生,许多传统的聚类算法被推广为“半监督版本”。经验表明,在半监督学习领域,借鉴和采用聚类思想对推进学习过程和改进学习性能均十分有效。本文首先针对多数传统聚类算法所采用的基于距离的相似性度量的局限性问题,提出一种适用于聚类领域的基于空间覆盖思想的相似性度量,它利用数据在多维空间中的相互覆盖关系来衡量数据之间的相似性,并进一步实现了基于该相似性度量的层次聚类算法SOHC (a Spatial Overlapping based similarity measure applied to Hierarchical Clustering),通过实验分析验证了该算法的有效性。然后将聚类算法推广应用到半监督学习的不同领域,设计和实现了相应的三种算法:(1)针对具有少量标签数据的极高维数据集,提出基于空间覆盖的半监督特征选择方法SOS-FS (Spatial Overlapping based Semi-supervised Feature Selection);(2)针对人工对大型数据集进行标记的传统监督分类方法可行性低,提出应用于大型数据集上的一种新的半监督分类方法SS-LFL (a novel Semi-Supervised classification applied to Large data sets with very Few Labeled examples);(3)针对特征选择算法的鲁棒性和稳定性问题以及现实中大量的廉价未标签数据的利用问题,提出一种新的双重融合的半监督特征选择算法ESSFS (a novel dual Ensemble based Semi-Supervised Feature Selection method)。在有针对地选择的数据集上对这三种算法分别进行了实验,实验结果表明所提出的算法具有广泛的应用基础和良好的应用前景。
其他文献
射频识别(]RFID技术是一种利用电磁波进行信息自动识别的通信技术。RFID技术被广泛的应用于物流,零售,图书管理等领域,但是由于RFID技术采用无线传输,使得RFID系统容易受到恶
目前Web中存在大量可以访问的在线数据库,而且各数据库与用户特定查询的相关度不同,因此如何快速准确地选择出与用户查询密切相关的数据库变得越来越重要。在此,本文提出了一
随着互联网的普及、无线网络技术及信息传输技术的快速发展,无线信息网络进入了集视频、音频、文本、图像为一体的多媒体通信时代。伴随着网络信息多样性的发展,移动终端设备
随着互联网不断进步和发展,随着数字技术的巨大突破,每天都会有大量的图像信息资源充斥于互联网上。越来越丰富的图像资源让用户很难在浩瀚的图像数据中找出他们真正想要的图
车间调度问题是计算机集成制造系统工程中的一个重要组成部分,它对企业的生产和管理有着重要的影响。随着全球经济的发展,市场竞争越来越激烈,制造型企业必须根据市场的变化
随着互联网络的高速发展,Web上的信息量越来越大,而且这些信息本身是高度分布式的。而传统的搜索引擎大都采用集中式的搜索机制,因此很难满足用户对于搜索效率和搜索结果的要
随着计算机技术和互联技术的飞速发展,人脸识别已经成为模式识别和图像处理的热门研究主题之一。由于识别算法以及外界条件的影响,高效的人脸识别率成为了相关研究的核心问题
随着信息时代的到来和网络的普及,信息系统安全越来越被人们所关注。   信息是一种资源,对于人类来说有重要的意义。个人电脑上的信息的保存在各种文件中。如何保护信息的安
基于图像的建模和绘制技术(IBMR技术)是一种全新的产生真实感图像的方法,核心思想是从已知图像中生成新的图像。目前,基于IBMR技术生成新图像,并对场景进行重建的技术已得到
21世纪世界各国都特别重视对海洋资源的开发利用,我国在本世纪制订了西部开发与海洋资源开发齐头并进的战略。因此,利用现代科技手段合理高效地监测海洋环境是我国实现海洋强