【摘 要】
:
伴随Internet迅猛发展的是呈指数级别增长的海量信息数据,对这些海量的数据中寻找对用户有用的信息成为一个重大的挑战,数据挖掘技术在此背景下应运而生并成为信息处理和数据
论文部分内容阅读
伴随Internet迅猛发展的是呈指数级别增长的海量信息数据,对这些海量的数据中寻找对用户有用的信息成为一个重大的挑战,数据挖掘技术在此背景下应运而生并成为信息处理和数据技术领域的一个非常热门的研究方向。数据挖掘的目的是从海量数据中以一种人可以理解的结构抽取有用知识的过程,它涉及到数据库和数据管理、数据预处理、建模及推理、复杂度衡量、可视化、在线更新等等环节和过程。聚类分析是数据挖掘中的一个重要方法和手段,它指将物理或抽象对象集合依据对象间相似性分组为不同类别的分析过程,该方法广泛应用于数学、统计学、生物学和经济学等领域。本文对数据挖掘中的聚类技术进行了分析和讨论,系统介绍了各种聚类算法及关键技术,然后在对k-means和SOM算法的基本原理进行分析的基础上,本文给出了两种改进算法:一种是基于初始值优化和外围点消除的改进k-means算法,该改进算法有效克服了随机选择初始中心点造成的结果不可控性,提高了k-means算法对存在聚类重叠场景的适应性;一种是NOV-SOM算法:该算法通过对标准SOM算法中的每个节点单元以函数模块的形式进行替换,将其有效扩展到了非向量数据的处理中。最后,为了测试本文提出的聚类算法的性能,本文用改进k-means算法和改进SOM算法分别进行了验证实验,并对两种算法与传统算法的聚类结果进行比较,实验结果表明改进算法提高了聚类精度和收敛速度,其性能优于基本聚类算法。
其他文献
黄浦江贯穿上海,将城市分为浦东和浦西。为了连接两岸,解决交通问题,上海市修建了十几条越江隧道,本文的研究对象上海市打浦路隧道即是其中一条。由于该隧道较长,必须设置风
大学生自主创业成为一种新的就业模式得到国家和社会的普遍关注。实践证明,创业活动是产业集群形成的起点和发展的动力,而创业活动的基础是活跃的创业人才,大学生是创业人才
随着我国金融体制改革的全面推进,我国加入WTO后取消对本国金融企业的保护,商业银行的市场结构正在发生深刻的变化。国有银行成功改制上市,实力雄厚的外资银行不断涌入,中国
面向能力单元的流程,也许能解开任正非的困惑。任正非说:“时代变化太快,流程管理都是僵化的,要跟上时代变化。找到一种模式,普适是不可能的。”任正非所说的流程管理僵化问题
近年来,全世界各类自然灾害不断爆发,给社会生产和人民生活造成了巨大损失。与此同时,随着社会系统组织程度复杂性的不断加深,系统之间的关联度和依赖性也日益增加,自然灾害
在汽车向电子化、智能化方向发展的趋势要求下,车载电子设备不断的增加,而线束作为各种电子设备的连接纽带,在汽车的电器网络中扮演着十分重要的角色,可以说没有线束网络就没
自1986年斯波伯和威尔逊在其《关联性:交际与认知》一书中提出关联理论以来,人们开始进一步从认知的角度探讨人类交际的总原则。基于关联理论,结合前人的研究成果,作者认为阅
四倍体细胞在胚胎组织发育过程中会出现严重偏离分布现象,因为在个体发育过程中,其仅能参与胚外组织的形成。将一定数量的ES细胞或iPS细胞与四倍体胚胎嵌合,在嵌合胚胎发育过
液化天然气(LNG)作为一种清洁、高效、方便、安全的能源,以其热值高、污染少、储运方便等特点成为当今世界消费增长最快的优质能源之一。由于我国天然气资源分布零散,单井气
混凝土的寿命预测在近些年是一个研究热点,多数学者都是以Fick第二定律为基础,研究氯离子渗透进入混凝土后的分布情况,预测混凝土结构的寿命,然而Fick第二定律的边界条件不符