基于数据密度估计的聚类与离群点检测研究

被引量 : 4次 | 上传用户:sonic0824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机科学发展至今,已可以通过数值计算来帮助人类分析问题并做出适当的决策。同时存储技术和数据采集技术的进步,使人们可以收集保存大量的数据。如何利用这些数据得到知识成为近年研究的热点。数据挖掘技术是利用数据得到新的潜在有用的知识的有力工具。统计分析技术是数据挖掘的重要基础理论之一。而概率密度估计是统计分析技术的重要技术之一。因此,研究与密度估计有关的数据分析技术有重要意义。数据局部密度作为数据的一个重要特征,能够体现出数据内部结构状态,可有效帮助人类理解数据的结构。因此,具有严谨数学基础的概率密度估计算法是数据挖掘领域常用的分析方法,经过科研工作者的多年研究,大量数据密度估计算法已经广泛应用在聚类,分类,离群点检测,数据压缩等研究领域。数据密度估计算法的基本假设为:如果数据观测值遵从某种分布规律,那么估计得到数据对应的概率密度可以推测数据具有的某种规律。数据密度大的地方对应数据的类中心区域,数据密度小的地方代表类边界,或者例外点或者离群点。这两种情况对应着数据挖掘领域的聚类和离群点检测,显然这两个研究方向是可以在数据密度估计的层次上统一到同一个框架中。本文通过研究已有的数据密度估计算法,提出了一种新的自适应的数据密度估计方法,与以往的算法相比,可以增加类内数据的相似度,减少类间的相似度,更好的发现数据内部结构,在FCM聚类初始点选择和离群点检测领域得到了有效的应用。在聚类方面,提出的算法可以通过寻找数据内密度最大点来给出类中心的估计值,为FCM算法提供有效的初始类中心点估计,理论分析和实验表明我们给出的类中心点估计可以得到比随机取类初始点更好的聚类结果。在离群点检测方面,根据普遍使用的密度假设,离群点数据密度低于正常数据点,而我们算法可以检测数据中密度显著低于类内部的数据点,即为离群点。本文算法计算过程简单,时间复杂度低,参数少,经过在公开数据集上的测试,理论与试验效果均好于经典算法。
其他文献
目的研究心电图碎裂QRS波与冠心病(CAD)患者冠脉病变范围、狭窄程度的关系。方法收治327例疑似CAD患者,均行冠脉造影术与心电图检查。以冠脉造影结果为金标准,计算心电图碎裂QRS
作为艺术主体的重要表现形式之一,拟人化手法在许多领域都有着广泛的应用。尤其是最近几年,伴随着社会经济的发展,人们对于自身生活空间的要求越来越高,也使得拟人化手法在建
梨(Pyrus spp)是我国五大水果之一,品种资源丰富,浓缩梨汁是主要的梨加工品之一,也是主要的梨加工出口产品,梨浓缩汁易发生非酶褐变,影响梨浓缩汁的品质和市场,深入研究梨浓
我科1994年6月~1997年7月,研究用化疗加甲地孕酮(美可治)治疗60例中晚期肿瘤患者。材料与方法一研究对象本组60例患者中,男28例,女32例。中位年龄58岁,(27~70岁)。其中小细胞肺癌12例,非小细胞肺癌15例、乳腺癌16例、胃
根据TOE框架和企业资源理论提出了电子商务战略感知模型,并纳入创新扩散阶段和组织规模两个调节变量.基于我国六个传统行业的调查数据,通过逐级回归发现,复合型人力资源、IS
随着移动网络技术的发展,信息交流以及获取的方式发生了很大的转变,目前,利用智能手机使用微信的用户迅猛增多,微信作为一种网络聊天工具而存在,也是实用英语移动学习的一个
<正>本论文旨在研究瞿秋白于1915-1922年期间其思想及意识形态通过哲学的现实主义从佛教的唯识论向马列主义转变的发展历程。瞿秋白(1899-1935)中国作家、政论家、共产主义者
会议
油田焊接作为输油管道施工中的重要环节,其工艺技术过程繁多、管理复杂,对质量的要求很高。焊接过程的效率对工程的运行安全和施工工期有着直接的影响,因此提高工作质量尤为
本文对国内电网建设进行了简单的阐述,对当前电力设备技改工作的现状进行了介绍,并且对基于全寿命周期成本的电力设备大修技改可行性分析方式进行了重点的讨论。最后以某地区
目的探讨人类表皮生长因子受体2(human epidermal growth factor receptor 2,HER-2)、血管内皮生长因子(vascular endothelial growth factor,VEGF)和表皮生长因子受体(epide