基于自然邻居的谱聚类和离群检测算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:chenlijuan1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,各行各业都有源源不断的数据产生,从这些数据中发现有价值的信息并为相关人员提供决策支持,是当前数据挖掘的主要任务。聚类分析和离群检测是数据挖掘任务中的重要组成部分,已被广泛应用在模式识别、人工智能、信用卡欺诈行为检测、视频监控等领域,并推动了社会的进步和行业的发展。聚类分析是利用数据之间的相似性分析它们的潜在关系,其中谱聚类具有坚实的理论基础和良好的聚类性能,引起了越来越多研究者的关注。谱聚类算法无需对数据的全局结构做任何假设就可以收敛到全局最优,但该类算法存在尺度参数选择、相似度度量以及聚类数目确定等问题。离群检测主要用于发现一些异常数据或者存在偏离常规行为的模式,其中基于密度的离群检测算法是目前常用的策略,但该类算法通常存在近邻参数选择以及密度差异数据集中离群点易被误检等问题。因此,为了解决谱聚类和离群检测中存在的邻域参数选择问题,本文引入了一种不需要人为设定参数的邻域搜索方法——自然邻居搜索算法。该算法通过不断扩大邻域的搜索范围,以自动适应数据集中数据点之间的分布。此外,针对上文提到的其他问题,本文结合自然邻居搜索算法提出了两种改进算法,具体如下:(1)提出了一种基于共享自然近邻的自适应谱聚类算法。针对谱聚类算法中邻域尺度参数选择问题,本文首先通过自然邻居搜索算法得到自适应邻域参数。然后,对于一些流行数据集上会存在数据点之间误识别为同一簇的情况,结合得到的自适应邻域参数,使用共享近邻的方式重新定义数据点的相似性,以便能够有效描述数据之间的内在联系。最后,利用特征间隙的思想在特征向量中获得聚类数目以完成整个算法聚类。本文在人工和真实数据集上进行了对比实验。实验结果表明,相对于已有算法输入合适参数的情况,本文提出的算法在对流行聚类方面聚类效果较为理想,更具有优势。(2)提出了一种基于自然邻居的离群检测算法。针对离群检测算法中邻域参数选择问题,本文首先对自然邻居搜索算法进行了改进,以便得到自然特征值并构造出自然特征邻域图。然后,使用自然特征邻域图中的信息来反应数据的紧密程度,以解决数据集中的密度差异问题,同时得到全局离群点。接着,重新定义新的离群因子并对其进行排序,选取较高离群因子的对象作为离群点。最后,通过在人工和真实数据集上的实验,验证了该算法在离群检测中的有效性。
其他文献
人工智能技术的发展日新月异,机器博弈作为其中的热门研究领域受到了研究者的广泛关注。近年来,以深度强化学习算法为代表的机器博弈方法得到了长足的发展。一方面,Alpha Go
20世纪以来,随着社会科学技术迅速的崛起,钙钛矿型氧化物逐渐的成为人们关注的热门对象。正是因为钙钛矿型材料特殊的物理和化学性质,即它不仅能够产生庞大的磁电阻效应,而且
随着科学技术的不断发展,城市化的快速推进,空气污染的问题日益严重。空气污染会严重危害动植物和人体的健康,也会显著影响到天气和气候,从而限制了很多发展中国家甚至发达国
刺糖多孢菌(Saccharopolyspora spinosa)是一种重要的工业放线菌,其产生的次级代谢产物多杀菌素(spinosad)是一种高效、广谱和安全的生物杀虫剂。为了更有效地对刺糖多孢菌进
本研究中笔者认为,针对一些少数教师在设计课堂教学时,对教学内容的重难点设计不合理、不自然、不符合学生认知规律的问题,特殊化策略或给这些教育工作者们提供一个有可能解
在4G和5G网络中,主要通过全球唯一的IMSI或签约永久标识符(SUPI)来唯一标识用户身份,进而关联到用户的身份、位置、电话号码等隐私信息,甚至作为各种移动支付的重要凭证。随
载体材料包括无机材料、有机高分子材料以及无机-有机杂化材料等,广泛应用于医疗、催化、精细化工等领域。糖类高分子及其衍生的载体不仅能够克服传统载体材料无法生物降解,
我国经济在中高速发展中伴随着产业结构转型的重要任务。在传统的经济发展模式下,经济发展以牺牲环境为代价,结果带来了一系列严重的环境问题,其中最显著的表现就是雾霾天数
面成型光固化的制造精度与效率是其工艺设备的重要评价指标,面成形光固化技术经过近30年的发展,其产业化应用仍面临诸多问题。其中受限于光学元器件的制约,难以实现大尺度、
BiAlO3是一种具有优良铁电和压电性能的新型钙钛矿结构的无铅铁电材料,适合作为高温压电器件材料使用。近年来,随着微电子设备和集成电路的发展,使得铁电氧化物极性表面的理