【摘 要】
:
随着信息技术的发展,互联网数据呈现指数级增长,为了有效的组织和管理这些海量数据,基于内容的数据挖掘技术备受关注。作为一个理论完善、简单实用的分类算法,K近邻法常被用
论文部分内容阅读
随着信息技术的发展,互联网数据呈现指数级增长,为了有效的组织和管理这些海量数据,基于内容的数据挖掘技术备受关注。作为一个理论完善、简单实用的分类算法,K近邻法常被用于文本的分类。但是,在处理海量数据时,极高的计算时间复杂度限制了KNN算法在海量数据分析任务中的应用。近年来,随着Hadoop技术的成熟,为解决KNN算法在文本分类时的不足提供了技术支持。本论文首先介绍了文本分类技术中数据预处理、特征提取、文件向量表示、分类算法,以及Hadoop分布式文件系统(HDFS)和MapReduce的相关内容;然后详细的阐述了KNN算法的模型和特征,并提出了一个运用MapReduce编程模型和KNN算法来实现海量文本数据的分类方案;最后,采用Newsgroup-18828数据集,在Hadoop集群上实现了KNN算法的文本分类。本文的贡献在于深入研究了文本分类的关键技术和KNN算法的特征,实现了基于MapReduce编程模型的KNN算法的文本分类,通过在单机和Hadoop集群上执行KNN算法的文本分类程序,证实了在Hadoop集群上实现的KNN算法能够处理海量文本数据,同时对影响作业性能的Map Task内存缓冲区大小和单节点Task Tracker故障进行了分析和总结。本论文在5个节点上搭建Hadoop集群,设计和实施了4个实验方案,分析实验结果表明:1)当作业的有效计算时间占总的运行时间比例较小时,小规模集群的优势显示不出来;2)在Hadoop集群上实现的KNN文本分类算法具有较好的加速比;3)当Map任务产生的中间数据较少时,通过增大Map Task内存缓冲区来优化作业的方法不可取;4)当集群规模较小时频繁的发生节点故障会极大影响作业的执行效率。
其他文献
<正>为进一步配合上海市社区卫生服务综合试点工作,全面提高社区护士适应社区团队工作新模式的综合能力,受上海市卫生和计划生育委员会的委托,由上海市预防医学会举办的"上海
目的:通过对运动生理学课堂教学现状的分析,探讨翻转课堂教学模式在运动生理学教学中的应用。方法:以广州体育学院2016级体育教育专业两个教学班学生共125人作为研究对象,随
传统企业预算管理系统以会计利润作为核心依据,这一衡量标准已经不符合现代企业预算管理要求,以企业长期战略目标为衡量指标的EVA全面预算管理体系逐渐得到广泛应用。传统企业预算管理系统仅以企业会计利润为着手点,只关注的是企业营业利润,忽略了对企业长远发展的考虑,这种过于注重眼前利益的预算管理系统势必会导致企业运营行为存在短视化问题,这显然并不利于企业的可持续发展。另外传统企业预算管理系统所重视的会计利润
19世纪80年代,宁静的东北亚开始演变为中、日、俄三角及其他列强介入的复杂局面,朝鲜被迫对外通商开放并由此引起内部政治力量分裂为亲日、亲俄、亲华等政治派别,且与当时东
目的:通过3种方法评价椎动脉型椎颈病模型.方法:将80只Wistar大鼠随机分为空白对照组、植骨压迫法造模组、力学平衡失调法造模组及混合造模法组各20只,通过检测造模前、造模
目的探讨艾司洛尔治疗快速性室性心律失常的临床疗效及安全性。方法 2011年1月至2012年12月在解放军252医院心内科住院的49例患者,在住院期间发生快速室性心律失常,年龄(61.7
<正>汽车产业作为支柱产业已开始跨入网络化时代。愈来愈多的汽车企业认识到国际互联网推动汽车营销的重要作用,纷纷挤占这一科技制高点,并将之视为未来营销竞争优势的主要途
<正>1案例资料1.1案情简介2016年05月13日23时许,张某在其县城区环城北路金太阳KTV门口因琐事被他人用菜刀伤及左手后入院。据医院病历记录;张某,男,2016年5月14日00时35分因
异基因造血干细胞移植(Allogeneic Hametology stem cell transplantation,Allo-HSCT)是目前有可能治愈白血病的重要临床方法,但移植后白血病复发仍是临床面临的一个重要问题,复发
在信宜大厦工程施工中,为解决钢筋混凝土桁架梁的施工质量问题,项目部在现场组建了QC小组,进行技术攻关。通过对现场最小的一榀钢筋混凝土桁架梁和以往施工的钢筋混凝土梁的混凝