【摘 要】
:
惰性学习(Lazy Learner)分类法有别于决策树归纳、贝叶斯分类、基于规则的分类、后向传播分类等的急切学习分类技术。当给定训练集时,惰性学习法只是简单的存储它,而不像急切
论文部分内容阅读
惰性学习(Lazy Learner)分类法有别于决策树归纳、贝叶斯分类、基于规则的分类、后向传播分类等的急切学习分类技术。当给定训练集时,惰性学习法只是简单的存储它,而不像急切分类法一样马上构造范化模型(即分类),要一直等到给定一个检验元组时才对训练集进行范化,进而根据训练元组的相似性对检验元组进行分类。惰性学习分类法的最大优点就是自然地支持增量学习,并且能对超多边形形状的复杂决策空间建模,或者说其比较适合对高维数据集进行分类。本文在分析比较了当前主要的垃圾邮件过滤技术后,实现了将一种典型的惰性学习分类法,即k最近邻(kNN)分类法,运用于垃圾邮件过滤。K最近邻分类法自然支持增量学习的特性刚好能满足垃圾邮件过滤中要求训练集不断更新的要求。同时,当k的取值足够大的时候,其分类准确性也很高,接近于贝叶斯分类。另外,本文还针对kNN分类法计算量比较大的缺点进行了改进,即利用一种鲁棒的层次聚类方法-ROCK聚类,对训练集先进行聚类,以达到压缩数据集的目的,从而减少后续分类的计算量。为了验证k最近邻分类法的可行性,这里基于vb6.0+Access2003平台和spam数据集设计了一个“KNN分类器”,以便比较在不同参数下的分类器性能。实验结果表明:这种由于采用惰性学习分类法而自然地支持增量学习的分类器,其准确率比较理想;同时,ROCK聚类对数据集的压缩在不影响后续分类准确率的前提下能大大地减少kNN分类过程中的计算量。
其他文献
随着计算机技术的不断发展,并行计算作为一种旨在降低运算时间、增加问题求解规模、提高求解精度的方法,在科学以及工程应用的计算模拟、商业应用的数据挖掘及事务处理等许多
随着信息技术、网络技术和自动化控制等研究领域的相互渗透,使得工业控制技术中嵌入式系统已应用到工业控制的各个领域,所以嵌入式技术已成为现代控制技术的发展方向之一。本
随着网络的快速发展,人们尽情地享受到了网络带来的便利,网络已经成为人们日常生活中必不可少的一部分。但是,由于网络上资料上过多,已经远远超过人们的处理能力。不同的用户其使
Web服务是基于网络的、分布式、自包含、自描述、模块化的应用程序,具有良好的封装性和松耦合性,因此得到工业界和学术界的广泛承认。而把现有的可用的Web服务合成起来,形成
随着数字时代的来临,计算机技术和多媒体技术的迅猛发展使声音、视频等各种各样的信息现在能以高效、方便的形式储存,但同时也造成视频资料泛滥的问题,如何有效管理和检索视
无线传感器网络是由部署在监测区域内大量的廉价微型传感器节点组成,通过无线通信方式形成的一个多跳自组织网络。随着传感器技术、微电子系统、现代网络和无线通信等技术的
本文在对网格调度系统结构、服务网格资源描述方法、网格工作流技术和启发式调度算法的研究基础上,提出了基于工作流的网格服务资源的调度过程模型,设计实现了基于WSRF的网格
软件测试是保证软件质量、提高软件可靠性的关键手段,是实施软件项目不可缺少的环节,其目的是以最少的时间和人力找出软件中潜伏的各种错误和缺陷。回归测试是软件测试的重要
协作学习(CollabomtiveLeaming,简称CL)是学习者以小组形式参与,为达到共同的学习目标,在一定的激励机制下为获得最大化个人和小组学习成果而进行的一切相关行为。基于Ontology
P2P技术已经使互联网格局发生了巨大的变化,改变了以往网络以服务器为中心的模式,使广大的互联网用户群体加入到网络共享的过程中来,有效的发掘了网络共享资源的潜力,为所有