局部密度聚类算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:jk305
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和通信技术地不断发展,各行各业中积累的数据量正在日益增长,数据挖掘作为一种能从大规模数据中发现隐含知识的技术,有着广泛的应用前景。聚类分析作为数据挖掘领域中一种重要的方法,已经成为了国内外专家学者关注的热点。由于先验知识广泛地存在于实际应用中,半监督聚类将包含成对约束信息和类标签信息在内的先验知识加以利用,改变传统聚类分析无监督的聚类过程,加入少量的监督信息协助算法获取更好的聚类质量。局部密度聚类(Local Density Clustering,LDC)算法是Rodriguez和Laio在2014年发表于Science上的一种快速、高效的聚类算法,它能发现任意形状的簇,对于非簇心点的分配过程无需迭代,只需一步即可完成。但是LDC算法仍然存在两方面有待改进的地方:一方面是没有利用真实存在的先验知识进一步提高算法的性能;另一方面是不能自动地确定簇的个数和簇心。因此本文针对上述两个方面展开专门研究:针对LDC算法无法直接适用于存在先验知识的实际聚类问题,本文提出了一种半监督局部密度聚类(Semi-Supervised Local Density Clustering,SLDC)算法。所提算法首先利用少量的成对点约束调整LDC算法的距离矩阵,其次采用同类排除法改进非簇心点类别归属的分配过程,使其满足约束对的限制条件,从而解决了半监督聚类中约束违反的问题。然后,在SLDC算法的基础上,针对算法在一些特殊数据集上因人为选择簇心会导致聚类质量降低的问题,提出了一种簇心自动识别的半监督局部密度聚类(Semi-Supervised Local Density Clustering with Automatic Recognition of Cluster Centers,Auto-SLDC)算法。Auto-SLDC算法利用差异扩大化的方法扩大潜在簇心点与非簇心点之间的差异,实现机器对簇心的自动识别,避免了由于人为主观因素造成的误差。最后分别在人工数据集和UCI实际数据集上对本文提出的算法进行了仿真实验,表明了算法的有效性。更进一步地,通过与其它算法的聚类结果对比分析,验证了Auto-SLDC算法能够有效提高聚类精度。
其他文献
随着LTE-A系统的广泛应用,支持LTE-A的终端也开始进入市场。为保证终端符合协议一致性,需对其进行RRM一致性测试。RRM 一致性测试依据空中接口协议栈规范实现。3GPP协议对每
目前,定增的重要性和使用频率日益增加。国内学界对此领域的讨论以定性分析为主,本文则使用回归分析和事件研究方法实证研究其市场影响及相关因素。本文首先阐述了定增的发展
在哲学与自然科学领域之中的一个非常重要的研究课题就是智能本质研究。这个课题对于机器再现及智能模拟来说,很可能标志着一种新兴产业即将问世。智能本质极其复杂的特性让
国民安全是国家安全之本,环境安全是国家安全的重要内容,重视人的安全是维护国家安全的必然要求,也是践行以人为本的总体国家安全观的基本要求。雾霾问题作为当前我国最为严
双结构新型网络以传统的TCP/IP网络为主结构,添加了物理广播和内容存储相结合的“播存环境”作为次结构。为了更为准确地刻画资源内容特征和用户兴趣偏好,并向用户提供个性化
随着移动通信技术的飞速发展,如今的无线通信网络系统已经表现出相当高的复杂性。如何有效地对通信网络性能进行研究和评估已经成为当下移动通信系统研究中需要解决的重要实
第三代合作伙伴计划(The 3rd Generation Partnership Project,3GPP)组织于10年前开启长期演进(Long Term Evolution,LTE)计划项目,该方案采用多种新技术,通过引入新型资源调
软件维护是软件演化过程中必不可少的阶段,软件演化是指在软件系统的生命周期内软件维护和更新的动态行为,包括新功能的开发与软件整体的测试,其中最基本的元素便是软件修改
近年来,互联网上产生了大量的RDF数据,并且形成了许多以RDF数据为知识单元的大规模开放知识库或者垂直领域知识库。为了发挥RDF数据的实用价值,基于知识库的查询回答技术逐渐
软件定义网络(SDN)是近年来提出的新型网络架构,相比于传统网络,SDN具有更智能、更灵活、更具管理性的优势。因为SDN的各项优势,最近被逐渐部署在校园网、企业网、数据中心甚