基于Hadoop的文本分类研究

被引量 : 0次 | 上传用户:yueaimeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,社交网络、电子商务、搜索引擎、移动计算等已经深入到人们的日常生活中,各类数据呈现出爆发式的增长,但是人们对信息的要求却更加精细化、个性化。如何对海量的非结构化文本数据进行分类的研究有着十分重要的意义,而云计算为海量数据的处理提供了强有力的工具,为此本文研究了基于云计算平台Hadoop的文本分类,主要做了以下工作:(1)研究了云计算中的存储、计算、虚拟化等关键技术。Hadoop作为一个开源的并行计算平台,已经逐步成为海量数据处理中最有力的工具,本文从设计理念、实现方法等多方面对其分布式文件系统HDFS和并行化编程范式MapReduce做了深入研究。(2)将Hadoop平台应用到文本分类领域,在通用文本分类流程的基础上,设计了一套基于MapReduce的并行化文本分类框架,在本地虚拟机环境下搭建了一个小型的Hadoop集群,编程实现了并行化文本分类算法,实验的运行结果证明了该框架的有效性。(3)在并行化文本分类框架的基础上,研究了基于近邻元分析的分类算法。不再仅仅将近邻元分析作为一种距离测度学习算法,而是将其思想引入到分类中,结合局部近邻思想,提出了一种K近邻元分析分类算法(K-NCA),在文本分类的实验仿真取得了良好的效果,最后分析了算法的可并行性,提出了算法的并行化实现策略。
其他文献
目的1.确认正清风痛宁和甲氨蝶呤单用及联用对于RA骨破坏的抑制作用强度;2.从炎症及RANKL系统解释正清风痛宁联合甲氨蝶呤对抗骨破坏的可能机制。方法1.酶消化法进行RA滑膜成
信用担保机构的业务经营具有典型的“高风险、低收益”特征,要实现可持续经营,就要尽力减少担保代偿赔付,不断加强自身的风险识别、风险管理、风险控制与风险化解的能力,才能
近些年来,随着经济技术的大发展,随着对生物多样性保护工作研究全球化、热门化,一方面促使水景植物的应用有了大的进步,同时对水景植物的应用程度也提出了挑战。保护地球上这
根据日本强震布设的经验,在地震震级越小时,要得到对应烈度,要求观测记录强震台站布置网格间距越小。根据上海市地貌类型及地层特点,基于现有强震台分布,提出新增强震台站布
介绍了国外六氟化钨的制备和精制工艺进展,重点描述了电子工业中应用的高纯度六氟化钨的制备工艺.同时介绍了六氟化钨的性质、产品规范、应用及经济等方面的状况,评述了六氟
通过理性与行政问责相关概念分析,归纳理性问责的基本内涵,并结合政治理论探究理性问责的应然性。政治理论是有效构建与完善现代国家行政问责的依据,但由于其在实际应用中认
为了研究茶多酚-肉桂精油复合保鲜剂抗氧化活性和对金黄色葡萄球菌的抑菌作用。采用体外抗氧化法测定了复合保鲜剂抗氧化能力。通过抑菌圈大小确定抑菌效果和最小抑菌浓度(MI
“港珠澳大桥·香港口岸国际概念设计竞赛”是香港特别行政区路政署筹划的国际设计竞赛,是一次粤、港、澳三地多元文化融合的可持续探索。通过对竞赛的评述,结合对获奖和入围
随着我们经济的发展和跨海快速交通的需要,将有大批的跨江跨海通道投入建设,水下隧道,特别是海底隧道的建设更是备受关注。但跨海隧道深处海底,通常具有地质勘探困难、单口连
目的:探讨针对性护理干预对脑梗死偏瘫患者下肢深静脉血栓(DVT)发生率及护理工作满意度的影响。方法:选取我院2016年10月—2018年2月脑梗死偏瘫患者82例,依据建档顺序分为研