决策图聚类算法的研究及应用

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:xiaoya2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代发展,特别是近几年进入数据爆炸的时代,数据挖掘领域的重要性越发凸显。而一些经典的算法及其改进已经无法满足日益增长的对数据处理的要求了。聚类,作为数据挖掘中一个重要的领域,对于更加优秀的聚类算法的需求也是日益迫切。在新时代,对聚类算法的时空间效率以及聚类效果当然要求更高,但是新时代对其的要求并不止于此,一个优秀的聚类算法除此之外还应该具有以下性质:可扩展性和可伸缩性;识别任意形状的类簇的能力;自动确定类簇数的能力;输入参数足够少;输入参数敏感性足够低;具有对离群点的识别能力;对输入数据的兼容性;可约束性等。决策图(Decision Graph)聚类算法,可简称DG算法,根据作者论文标题首字母缩写又可叫CFSFDP算法。于2014年6月在Science杂志上一经刊载出来就受到了广泛的讨论。该算法几乎完全具备以上性质,比如它不需要事先指定聚类数量;需提前设定的参数很少,只有一个,且敏感度较低;可以非常简单地确定离群点;整体算法复杂度比一般的K-means算法的复杂度更低;可以得到非球形的聚类结果,可以很好地识别异形数据分布。除此之外DG算法还具有其他非常优秀的性质,能够仅以待聚类点之间的距离矩阵作为输入数据,而并不需要将点映射到向量空间中;算法稳定,只要输入的数据源是同样的,那么得到的聚类结果也是同样的等。而最重要的是,DG算法在选取聚类中心的算法思想上另辟蹊径,非常简洁巧妙。对于该算法,有对其选取聚类中心的巧妙方法大加赞扬的;也有对该算法的如选取聚类中心需要人工参与等问题进行质疑的。笔者对此是持肯定态度的,毕竟该算法优秀之处有目共睹,不足之处也并不是硬伤,经过广泛的优化改进之后,其未必不能成为聚类领域的又一经典算法。文本也是在对该算法的问题发现以及解决改进方面提供了一份贡献。本文的主要内容就是针对笔者发现的一个该算法设计上的问题:密度冲突问题。该问题主要是出在计算决策图算法的重要参数δ时,对需要考虑的基于另外一个重要参数ρ的判断条件存在漏洞。于是本文之后举出该问题会导致的错误聚类结果,然后就该问题设计了两种分别基于δ和基于ρ的改进方案。然后在设计、实现了这两种改进算法后,用对比性实验验证了原算法的出现的错误以及改进算法的解决效果,以及用验证性实验验证了改进决策图算法最主要的两大特点:可以是被异形类簇、可以不依赖于数据点之间的空间分布而只以数据点之间的距离矩阵作为输入数据。最后针对决策图算法选择聚类中心的另辟蹊径的巧妙算法的应用,选择将其实现于简单经典的K-means算法上。设计并实现了新算法DG-means之后,设计对比实验验证了新算法相比于K-means算法的各项优秀性质。间接证明了DG算法在选取聚类中心上的优秀效果。
其他文献
随着网络技术的飞速发展,越来越多的研发人员把Internet引入嵌入式设备,从而开发出嵌入式远程监控系统。这类系统可以在异地对嵌入式设备采集的信息进行监测,即使在沙漠、无
随着信息技术的发展,软件规模的不断扩大,如何保证和提高软件质量成为软件界最为关心的问题之一。近年来,Web服务的松散藕合性、简单性、高度可集成性、规范性、开放性和行业
“计算机文化基础”课程是面向计算机专业入门和非计算机专业学生开设的计算机课程,是一门强调操作的应用性课程。随着网络的普及和对教育的重视,各个高校也越来越重视学生计
入侵检测是主动防御技术,其作用是对计算机和网络上的恶意行为进行识别和响应。传统的入侵检测系统在扩展性和适应性上已不能应付越来越复杂的攻击方式。将数据挖掘技术引入
无线传感器网络通常密集部署且节点能量有限,如果所有节点同时工作,不仅会导致收集过多冗余数据,而且相邻节点竞争信道带来数据包冲突。因此,在满足网络覆盖质量要求下,如何
基于机器视觉对苹果进行在线检测分级,对提高我国苹果市场的竞争力有十分重要的意义。目前,在苹果分级的过程中存在效率低、误判率高、速度慢等缺点,很难满足实时性分级的要
近年来随着P2P技术的不断发展,P2P 软件尤其是P2P VOD用户数量不断增加。相对于P2P应用的迅速发展,计算机网络服务及硬件系统发展较为迟滞,P2P应用和因特网服务供应商(ISPs)之间
网络信息时代,信息技术的发展使得数据的收集和传输过程变的越来越简便易行,数据呈现爆炸式增长。人们对于隐私的关注程度也变的越来越高。数据挖掘是一门从海量数据中挖掘有
蚁群算法是一种最新发展的模拟昆虫王国中蚂蚁群体觅食行为的仿生优化算法,该算法采用了正反馈并行自催化机制,具有较强的鲁棒性、优良的分布式计算机制、易于与其它方法结合
敏感规则隐藏是隐私保护数据挖掘的一个重要分支,受到越来越多的研究工作者的重视。敏感规则的隐藏应用非常广泛,主要应用于商业竞争与合作、金融等领域。目前存在的敏感规则