基于可拓聚类方法的数据挖掘研究

被引量 : 0次 | 上传用户:kmweiran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,人们使用计算机网络等高级技术发现数据信息的能力比以前大大提高了,很多数据信息被运用于商务决策、市场分析、科学研究和工程项目的开发等,这一趋势将得到持续发展。现代社会的信息等技术的高速发展以及数据库应用的规模和范围的不断扩大,使得人们能够获得的数据量也越来越大了,数据的种类也变得日渐繁多。特别是互联网的快速发展发展为我们带来大量的数据和信息,面对这么大规模的、而且存在着异常数据的数据库信息,如何从其中提取出隐含的、有用的、对商业等的决策有用的信息或知识,进一步提高信息利用率,成为现今世界急切需要解决的一个重要问题。在这种情况下对于数据挖掘及其方法的研究就变得极为重要了。本文就是基于这一点,在对数据挖掘的方法及其算法分析研究的基础上提出一种新的可拓聚类方法。本文研究的问题是属于可拓工程和数据挖掘方面的。在借鉴和综合国内外前人的相关研究成果的基础上,在分析研究了目前数据挖掘理论基础及其聚类方法的基础上,将可拓学的理论知识引入到了数据挖掘中去,从可拓学研究的基本思想、工具和方法出发,将问题进行了形式化的描述,建立了以可拓集合和关联函数为核心的可拓聚类方法。该方法以物元为基础,将知识定义为物元,首先将知识以物元的形式模型化,形成进行数据挖掘的最初知识模板,然后用要分析的数据信息形成可拓集合,确定物元分析的经典域和节域,最后建立解决问题所需要的关联函数,用关联函数值的大小来判断待分析的知识信息属于某集合的程度,从而进行聚类。本文所做的研究工作主要包括以下几个方面:(1)比较详尽地论述了目前国内外对数据挖掘相关理论及其应用研究的总体情况,包括数据挖掘的概况、挖掘数据的特点、数据挖掘的过程、挖掘中常用的几种方法以及在科学研究、金融业、医疗等领域的应用。(2)对数据挖掘中的聚类分析方法进行了比较深入的研究,包括聚类分析概述、常用的五种聚类方法的内容、优点、缺点和几种主要聚类算法的描述,同时对其从时间复杂度、目标数据属性、发现聚类形状、对噪声数据的敏感性、对数据输入顺序的敏感性、高维性和算法效率7个性能进行了比较。(3)论述了建立可拓聚类方法中所使用的可拓学方面的理论、定义和公式,包括基于理论、可拓集合论和关联函数;在此基础上提出了建立可拓聚类方法模型的一般过程,并对其具体内容进行了详细的描述;最后以具体的数据为基础,通过地震分类识别实例研究对验证了可拓聚类方法模型的有效性。
其他文献
当今世界经济的发展必然趋于全球化,任何企业要生存和发展都不能独善其身。由于中国企业在世界产业链中的分工是处于价值链的底端,而目前又面临全球宏观经济恶化的严峻考验,
2008年我国蜂产品加工企业年产值约80亿元,已成为世界上最大的蜂产品生产和出口国。然而,对我国蜂产品企业的营销渠道绩效进行评价方面存在一些问题:没有建立完备的指标评价
W波段是毫米波中重要的窗口频率,研究该波段的接收技术具有许多现实的意义。但国内的W波段接收技术由于受到加工工艺、材料等限制,不论采用混合集成形式或者单片集成形式,其
为深入解决贫困户“两不愁三保障”突出问题,7月以来,眉山市东坡区人社局组织全局结对帮扶干部到所在帮扶村“走村入户”,集中开展精准扶贫“大回访、大排查、大整改”工作。
期刊
随着中国的迅速崛起和汉语国际传播的快速推进,马来西亚的汉语教学有了新的发展,并通过开设汉语教学专业实现了汉语教师培养的本土化。实践教学是汉语教学专业建设的重要部分
平乐正骨"筋滞骨错"理论是在平乐正骨筋病理论的基础上继承和发展起来的。在临床治疗中,该理论强调整体辨证与局部辨证相结合、中医辨证与西医辨病相结合,强调以筋为先、以衡
:刘熙载的词品说 ,是一个意义非常丰富的理论见解。在正变观上修正了婉约为正的传统偏见 ;在创作论上主张自出机杼 ,反对雕琢刻划 ;在人品与词品的关系问题上 ,要求以封建伦
项目施工管理是一个复杂、艰苦的系统工程,要在规定的时间内完成工程项目、节省工程成本、保证工程质量,人力资源管理特别是绩效管理就尤为重要。本文以青岛QHC大冷冻机组生
近些年来,城市化进程不断加快,尤其是郊区的城镇化建设,快速的发展需要大量的交通建设作为支撑,从1978年到2008年,公路交通基础建设累计完成投资约44000亿元,各省市也纷纷建立公交
随着我国产业结构的调整,用电需求结构发生了较大变化,为了满足电厂运行经济性的要求,本文经过对常用的四种调峰方式的比较,提出了在机组负荷下降时,结合负荷变化时间和趋势