数据开采中的聚类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:bjzmht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据开采通过建立模型揭示隐藏在大量数据中的知识(模式和关系),这些知识是隐含的、预先未知的、并且对用户具有潜在价值.数据开采综合了数据库系统、人工智能和统计学中成熟的方法和技术,其中聚类分析从统计学逐渐发展成为数据开采研究中的一个重要课题.作为一项数据开采任务,聚类分析的目的是从大型、多维数据集合中根据某种标准将相似的数据对象聚集到一个类中,好的聚类结果应当是同一类中的对象之间相似度尽可能的高,而处于不同类之中的对象之间相似度尽可能低.传统的聚类分析方法都没有考虑大容量数据集合的问题,而数据开采的研究重点之一就是如何从海量数据中高效率地获取知识;另外,传统聚类方法的研究多集中于数字属性的数据,而现实世界中存在大量非数字属性以及具有多种特征的数据集合;因此,聚类算法的研究主要集中在如何提高大型数据集合的聚类效率、如何处理具有各种特征的数据集合,如文档数据、分类数据、高维数据等.
其他文献
Dr.Norden Huang于1998年提出了一种新的非平稳信号分析方法--经验模分解法.这种方法将一个复杂的非平稳信号逐级分解成若干平稳的数据层与剩余的最终趋势项的叠加.其中每一
信息时代的最大产物,网络,已日益成为人们日常生活中不可缺少的一部分。现代生活中,无论在政治、经济、科技和文化等,都已经和网络融合在一起,成为相互密不可分的一个整体。但是网
将多块网卡虚拟成为一块网卡,使其具有相同的IP地址,来实现提升主机的网络吞吐量或者是提高可用性,这种技术被称作Bonding.在开放源码平台中,FreeBSD系统具备内核稳定,网络功
激光打标自八十年代就在欧美国家获得了广泛的应用,近年来更是凭借其卓越的性能广泛应用于我国各行各业。轴承专用激光打标机便是激光打标机在火车轴承维修过程中的一项具体应
目前,WEB服务器为控制发布信息的访问所采用的访问控制技术主要是访问控制链表.系统管理员需为每个用户对每项资源的访问设备权限表.当WEB服务器上的用户和资源数目很大时,这
该文共分五章.第一章综合概述了Agent、移动Agent平台及关键技术、规范的研究情况;第二章给出了Agent的一般结构和分布式计算模式的比较;该文重点在第三章讨论了移动Agent的
作者提出了文档图像压缩处理系统的方案模型,重点对其中的几种关键技术及其在该压缩处理系统中的应用进行了研究。其主要工作和结论如下: 首先,对文档图像的个性进行了研究,指
随着网络技术的不断飞速发展,基于网络的计算机应用不断的在增加,人们可以从网络上得到更加丰富的内容,丰富的内容也吸引了更多的用户使用网络。这些网络应用对网络带宽的要求也
信息网格是利用网格技术实现信息资源的共享、管理和提供信息服务的系统。本文结合中科院计算所织女星信息网格计划的研究工作,研究了信息网格的访问控制机制。本文提出了一
社会和技术的进步催生了一大批电子商务网站,它们的出现给人们带来了一种方便快捷的在线购物方式。电子商务的飞速发展使得商品图像急剧增加,如何对数目庞大的商品图像进行快速