基于互惠最近邻的层次聚类算法及其应用研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:llaaxzl123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能设备的普及和存储技术的发展,客户端进行数据存储和处理的能力得到显著提升。对这些数据的分析挖掘能够带来巨大的经济效益和社会价值。随着各行业数字化建设的深入,来自于各领域的大规模数据已难以进行直观分析和观察。层次聚类算法作为大数据分析挖掘中的一种重要工具,通过分析数据之间的关系,能将数据组织成多层次、多分辨率的结构形态,有助于人们挖掘数据中的潜在知识。但传统层次聚类算法的计算复杂度高,可扩展性不足,限制了其应用范围。因此,针对大规模数据集,如何解决聚类时间与聚类效果之间的矛盾是一项长期且艰巨的挑战。为此,本文提出了一种新颖的层次聚类算法(互惠最近邻聚类算法),并针对基于互惠最近邻的层次聚类框架中存在的相关问题进行了探索和研究,主要研究内容如下:(1)提出了互惠最近邻聚类算法(Reciprocal-nearest-neighbor Supported Clustering,简称RSC)。RSC算法的基础假设和算法逻辑与经典层次聚合聚类(HAC)算法和基于CF Tree的增量层次聚类算法不同,它基于一个优雅的假设:互为最近邻居的两个数据点应该被分配在一个聚类簇中。在此基础上,RSC算法通过最近邻居搜索将其他数据点聚合在一起,找到互惠最近邻节点对,并将节点对的质心作为聚类子树的根节点进一步聚合,以构造多层次、多分辨率的聚类树。RSC算法中包含了基于簇规模的剪枝策略,解决了层次聚类中常见的连锁效应问题(chain effect)。真实世界数据上的对比实验表明,在大部分情况下,RSC算法的聚类准确性高于其他基准算法。并且针对RSC算法的算法复杂度分析表明,其时间复杂度为O(n log n),低于绝大多数传统层次聚类算法。(2)针对潜在的数据特征复杂性问题对RSC算法进行了优化,将其扩展到复杂网络数据的社区检测应用中。社区检测算法作为复杂网络数据上的一种特殊聚类,具有广泛的应用价值。但因复杂网络数据的稀疏性和非对称性,传统聚类算法并不能直接用于社区检测。本文通过引入随机游走方法,实现了节点之间的距离关系(包括无权网络)的估算。利用空间几何关系,实现了非向量根节点之间距离的近似计算。并通过计算社区之间潜在连边的介数,将网络节点组织成为具有树形结构的社区。在真实世界网络上的对比实验显示,扩展后的RSC算法的社区检测性能显著地优于经典GN算法。这表明,RSC算法在社区检测中具有一定的应用价值。(3)针对互惠最近邻节点的重要性评分问题,提出了基于互惠最近邻节点重要性的层次聚类算法(简称SRSC),解决了RSC算法空间复杂度偏高所带来的应用局限性问题。利用互惠最近邻构造虚拟的根节点需要消耗大量的内存空间。SRSC算法将基于互惠最近邻的层次聚类问题形式化为一个图模型,结合图的拓扑结构和数据边界采样策略,从结构重要性和相对空间重要性两方面对互惠最近邻节点的重要性进行评分。重要性评估方法使聚类簇具有更平衡的树形结构,从而节省了额外剪枝所带来的开销,并使之成为无参数算法。在大量真实世界数据集上进行的对比实验表明,SRSC算法的聚类准确性高于层次聚类标杆算法PERCH。同时,算法复杂度分析表明,SRSC算法在保持其时间复杂度与RSC相同的情况下,将空间复杂度降低到O(log n)。(4)针对大规模数据聚类的时间成本与聚类准确性的平衡问题,提出了数据并行化的选举树算法。选举树算法的基本思想是分组聚合,将数据分组中产生的候选人(簇的根节点)视为新的节点进行迭代聚合,实现聚类簇的合并。选举树算法以“相对位置因子”为基础,实现了数据边界的快速十字采样,使采样所得的边界点分布更加均匀;还实现了针对簇重叠区域的叶子节点交换,修正了叶子节点的归属误差,提高了聚类准确性。在真实世界上的对比实验显示,选举树算法的聚类准确性显著优于经典算法和层次聚类标杆算法PERCH,并且准确性对参数不敏感。在多种类型人工数据上的可扩展性测试表明,选举树算法的CPU Time增长率约为1.18,达到准线性水平,且对数据分布不敏感。选举树的分组聚合过程无需共享内存,分组数据的大小与聚类结果之间无显著影响,在大规模数据聚类应用中将有较好的应用前景。综上所述,本文提出了基于互惠最近邻的层次聚类框架,并从社区检测的应用价值、解决空间复杂度过高问题、大规模数据集的层次聚类三个角度对该框架进行了探索和研究,并通过实例分析验证了算法的实证性能和可扩展性。本文针对层次聚类中一个新的分支方向进行了研究,为平衡层次聚类的实证性能和可扩展性问题提供了有意义的探索,为数据的结构化分析和挖掘工具提供了新的可能。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR)可对目标区域进行全天时、全天候持续观测,已被广泛应用于战场侦测、农林普查等军事和民用领域。SAR数据处理一般包括成像处理以及成像后的图像处理,其中图像处理包括图像的增强、融合、分割以及目标的识别、检测与跟踪等。作为一种高性能图像处理方法,深度神经网络可在数据驱动下,根据任务需求从图像中自动学习目标特征,有着传统机器学习方法不可
人体组织的介电特性主要包括电导率和电容率,它们描述了组织对电磁场的响应特性。临床研究表明人体组织出现异常时其介电特性值会发生改变,因此介电特性可以作为表明组织生理状态的生物标记,为临床诊断提供有价值的信息,有助于疾病的早期发现。另外,利用介电特性能够估计组织内部电流和电磁场的分布,可以将其应用在有关电磁刺激的临床治疗中,所以介电特性分布研究具有重要的临床意义。磁共振扫描中的射频能量特定吸收率(Sp
瑞利散射型分布式光纤传感由于其响应速度快、灵敏度高、传感距离长等优点成为了近年来的研究热点,已经初步应用到地震波监测、地质勘探、智能交通、大型结构健康监测等领域。常见的瑞利散射型分布式光纤传感有:适用于动态应变传感的相位敏感型光时域反射计(phase-sensitive optical time domain reflectometry,Φ-OTDR)、可用于动静态温度和应变传感的相干光时域反射计
作为数据挖掘领域的热门问题之一,离群点检测(也称为离群点挖掘)是从原始数据集分布中发现显示异常行为的对象,它可用于人群异常行为检测,信用欺诈,入侵检测,医疗保健和物联网(IoT)大数据离群点检测等。关于离群点检测,两个主要挑战是数据的维度和规模。使用集中式的检测方法,必然面对数据的“维度诅咒”,另外随着数据尺度的增加,单一节点的计算在运行时间上也是难以忍受的。本文研究的重点也立足于解决离群点检测中
随着近年来量子计算领域的飞速发展,量子计算技术已经深刻地改变了传统的计算模式与信息处理的方式。量子计算利用量子物理特有的量子纠缠、量子叠加等性质能够有效地提升信息处理的效率与能力,并且提供了新型的数据计算与信息处理方式。机器学习利用现有的计算资源对大数据进行分析学习得到规律以对未知数据进行预测,在众多领域有着广泛的应用。量子计算技术应用于机器学习中产生了量子机器学习这一研究方向。量子机器学习一方面
合成孔径雷达(SAR)由于其全天时、全天候的工作特性,已被广泛应用于侦察探测、地质勘探、灾害检测和公共区域安检等领域。作为SAR图像分析和解译的基础问题,SAR目标分类与检测问题的研究具有重要意义。鉴于深度学习方法在计算机视觉领域取得了巨大成功,本文开展基于深度学习的SAR目标分类与检测方法的研究。近年来,基于监督学习的深度网络在SAR目标分类与检测任务中被广泛应用并取得了突出的效果。本文围绕SA
区块链(Blockchain)技术近年来已成为学术界和工业界的研究热点。目前区块链的应用场景也已经扩展到金融、医疗、政府、文化、艺术、物联网、软件工程等领域,因而区块链也常被称为下一代互联网。但是,区块链还存在一系列问题,如共识算法机制、系统性能与运行效率、存储方法、匿名与可信的矛盾以及监管问题等,安全威胁也始终相随相伴。目前针对区块链系统、合约和应用的安全事件频频发生,给个人、企业乃至国家造成了
随着移动互联网通讯和物联网技术的飞速发展,包含众多传感元件的可穿戴设备将成为物联网的重要入口与应用终端,并通过软件支持以及数据云端交互实现众多功能,这将对我们未来的生活、感知带来巨大的改变。可穿戴柔性触觉传感器通过测量人体生理参数、感知周边环境指标,能够及时且低成本地提供人体健康状况的相关重要信息,对人类医疗保健、运动健康具有积极的影响。随着可穿戴设备逐渐呈现出巨大的市场潜力,柔性电子器件特别是柔
数据访问控制技术是网络与信息安全领域用于实现只有授权用户才有权访问共享数据的关键技术之一。以对称加密和传统公钥加密技术为主要手段的访问控制,虽然在一定程度上实现了对数据的授权访问,然而由于其缺乏灵活性和可扩展性,无法实现一对多细粒度访问控制,使其无法真正广泛应用于各种现实场景中。随着对访问控制研究的不断深入,不同的一对多访问控制机制,如身份基广播加密的访问控制机制和属性基加密的访问控制机制,相继被
随着无线感知与通信技术的发展,低功耗物联网被广泛地部署以采集或监测环境数据。多样的应用场景和不断增加的物联网终端设备对低功耗物联网的数据传输性能提出了挑战。一方面,越来越多的物联网终端设备被部署到环境中,爆炸式增长的终端设备与有限的无线资源之间冲突越来越明显,并成为影响低功耗物联网性能的主要瓶颈之一。因此,如何通过高效的资源分配机制,支持大量终端设备的可靠数据传输是低功耗物联网领域非常重要的研究问