在聚类中关于噪音与高维问题的研究——一种快速鲁棒的映射聚类算法的研究及应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:ewt43grfdger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,作为数据挖掘的重要工具之一,聚类技术得到了越来越多的关注。目前已有许多成熟的聚类算法,而且这些算法被广泛应用于各个相关领域中。然而大多数的聚类算法只是对低维数据集有效,对于日益增多的高维数据集,其聚类性能大大降低。如何正确对高维数据集进行有效的聚类分析是当前数据挖掘领域的一个难点和热点问题。 高维数据集聚类分析的难点之一是其较高的时间复杂度,这使得一些经典的聚类算法,如层次聚类,在处理大规模高维数据时难以有效。高维数据集的另一个难点是其高度的噪音敏感性,这一特点使得众多已有的聚类算法,如k均值聚类、层次聚类等算法的性能大大降低。因此给出快速且鲁棒的用于高维数据集的聚类算法是很有必要的。 映射聚类算法是针对高维数据集提出的一大类聚类算法,实验和理论证明这些算法较之于经典的聚类算法是比较有效的。本文针对上面提到的高维数据集聚类的难点,给出了一种快速且鲁棒的映射聚类算法。该算法中利用关联规则来查询每个聚类簇的相关维,然后利用相关维进行进一步的聚类分析。 该算法的主要优点在于: 1.快速性 2.较好的鲁棒性,对噪音敏感度较低 3.能够自动获得聚类数 我们通过几组仿真实验有效的证明了上述优点。
其他文献
随着计算机及网络技术的发展,无纸化考试这种考试形式得到了越来越广泛的应用。无纸化考试所具有的方便、快捷、效率高、防止试题泄露等优点,是传统考试手段所无法比拟的。在网
随着信息技术的飞速发展,数据挖掘在许多领域所起的作用越来越重要。在数据挖掘的各个分支中,关联规则挖掘和分类挖掘是两个高度活跃的领域,其应用范围也非常广泛。而关联规
随着计算机技术、网络技术、通信技术的不断发展和进步,通过网络实现办公已经变得非常普遍。人们在享受办公方便的同时,也受到了信息安全问题的困扰。网络“黑客”的攻击手段
为了提高签名效率、保护用户的隐私、解决数字签名的授权以及数字信息的安全传递,开展基于群体的数字签名和代理签名的研究不仅具有重要的学术价值,而且还对国家安全和信息化建
本文首先对几种经典的迭代算法进行了简单介绍,包括牛顿法、拟牛顿法等,并针对这些方法的不足,分析了块Broyden方法的优点。然后介绍了预处理技术的出现原因以及发展历史,分析了
AMS(Alpha Magnetic Spectrometer)太空磁谱仪实验是丁肇中教授领导的由美、俄、法、中等15个国家和地区共300多名科学家参加的大型国际合作项目,其目的是为了寻找由反物质所
随着计算机、通信,特别是人工智能理论与技术的发展,目前关于多主体协作的理论与应用研究已成为多学科和AI交叉研究中的一个前沿课题。在多主体系统中,由于单个主体的能力有
AMS科学活动所产生的数据正在以PetaByte的量级爆炸性地增长,如何高效地管理这些高度分散的海量科学数据已经成为AMS科学活动中的一个巨大挑战。为了应对这一挑战,AMS数据分
  “关注点分离”一直都是软件开发的一个重要目标和原则。针对面向对象技术在处理分散于系统各处的横切关注点上的不足,业界提出了面向方面的方法。由于面向方面方法在处理
当今,信息技术飞速发展,日常使用的无线信息业务,产生垃圾信息的机会越来越多。如何根据需要对这些信息进行自动分类过滤,就成为信息技术领域的热门问题。在这方面的中文过滤技术