基于Spark计算环境的改进Bayes文本分类并行算法的研究与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zyr2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的迅速发展,互联网得到了广泛的应用,目前已然成为最重要的信息来源。特别是随着云计算和大数据的出现,互联网产生的数据量呈指数等级增长。这些数据具有以下特点:数量大,维度高,结构复杂,噪声多,但具有广泛的应用前景。此外大部分的数据都是以文本的形式存储在互联网上。如何去有效的组织并使用这些数据,在当前计算能力不足的情况下将会成为一个巨大的难题,特别是在互联网应用程序中,当用户希望能准确、高效、快速地从大量的数据查找到自己需要的数据时,会对系统的计算能力和自然语言处理的算法提出更高的要求。朴素贝叶斯算法(Naive Bayesian)是十大经典的数据挖掘算法之一,它作为在文本分类中的基本理论而广为流传。随着互联网和信息系统的高速发展,海量的数据在随时随地被产生出来。当传统的Bayesian分类算法应用到海量的大数据中时一些问题就会暴露出来。文本提出了一种在Spark计算环境中进行文本分类的Bayesian改进算法:INBPCS。因为多元伯努利模型并没有考虑属性维度对文本分类的影响,因此本文改进了基于多项式模型的Bayesian算法。另外对于文本分类的数据处理过程,本文首先提出了一种并行的噪声消除算法,然后在计算各个属性的信息增益值算法的基础之上提出另一种并行的维度缩减的算法。基于前面的数据预处理的过程,一种用于计算条件概率的并行算法就被提了出来,该条件概率主要考虑到了属性维度在不同的文本、类别以及训练集中的影响,同时本文提出了一种基于多种机器学习算法的混合预测算法提升Spark在Shuffle阶段内存预测的准确度。最终,在Spark平台上对多种不同的大型语料库数据集进行测试,结果显示改进后的INBPCS算法要比其他流行的文本分类算法具有更高的性能和准确率。
其他文献
我国蔬菜基地土壤中普遍存在邻苯二甲酸酯类(PAEs)污染物,其中尤以邻苯二甲酸正二丁酯(Di-n-butyl phthaiate,DnBP)检出率和污染水平较高。胡敏酸(Humic acid,HA)和富里酸(Fulvic acid,FA)是土壤腐殖质的重要组分,对土壤有机污染物的降解具有重要作用。本文以DnBP为目标污染物,研究了HA、FA对沈阳市新民蔬菜基地农田土壤中DnBP的降解动力学过程及土
随着社会的不断发展,环境问题也日益严重。重金属污染的治理是我国目前土壤污染中主要的任务之一。镉是重金属污染中的其中一项主要污染物。重金属土壤修复技术有很多,其中稳
纳米结构酶催化剂是指将生物酶固定到具有纳米尺度的载体上,本文采用具有天然二维层状纳米结构的含水铝硅酸盐黏土矿物蒙脱石为载体,将α-淀粉酶及脂肪酶通过吸附和共价结合等方式固定到改型或改性蒙脱石上,分别构筑了蒙脱石基纳米结构淀粉酶催化剂、蒙脱石基纳米结构脂肪酶催化剂以及脂肪酶@蒙脱石复合微囊三种纳米结构酶催化剂,对比研究了纳米结构酶催化剂与游离酶酶学性质的差异,得出了以下几点结论:(1)蒙脱石基纳米结
活断层错动往往会诱发地震,而在合适条件下,断层错动会贯通到覆盖层地面引起地表破裂并造成建筑物地基基础及上部结构的破坏,当前,这一问题一直是工程地质、土木工程研究及设计人员关注的热点科学技术问题之一。因此,需深入研究其对建(构)筑物的影响以及建(构)筑物的避让距离与抗断裂结构措施等问题。本文通过大尺寸、强基岩位错量下常重力模型试验并结合大变形数值模拟技术,研究了正断层错动作用下上覆粘土、砂土层的变形
我国黄土高原地区地质构造复杂,地震活动频繁,历史上发生了多次强震。强震诱发的崩塌、滑坡等地质灾害,给震区带来了巨大的人员伤亡和财产损失。不同黄土斜坡在不同强度的地震作用下其危险程度存在着差别,在地震地质灾害评估和地震应急工作中需要做出快速评价。本文以1920年海原特大地震诱发的黄土滑坡为研究对象,在统计分析黄土地震滑坡的分布规律、发育特征、破坏形式和滑动机理的基础上,建立了一套黄土斜坡地震危险程度
随着无线通信技术以及数字电子技术的飞速发展,无线传感器网络(wireless sensor networks,WSN)已经成为当前的一个热门研究领域。无线传感器网络凭借低成本、低功耗和高可靠
盾构法施工在隧道工程建设中得到了广泛应用,是城市地下基础设施、地铁、管廊施工的首选技术,但伴随而来的是失败数量的不断增加。目前的风险识别方法存在遗漏的因素,人们对失败的认识不够全面,而当失败发生之后,若不能准确识别出失败的致险因素,失败会再次发生。因此,失败没有得到有效利用,造成“信息过载”但“知识缺乏”的局面长期存在。BIM技术的兴起给知识的获取和表达提供了一个与工程模型相结合的工具,基于此,本
工业废弃地是城市工业发展史的记录者,它是城市特定时代工业文明的重要载体。同时,工业废弃地由于特定的生产过程、构筑物、设施和废弃物的发展,形成独特或危险的地形地貌,这
有机小分子荧光探针由于其灵敏度高、选择性好、响应速度快等优点,已成为生物样品中活体成像和小分子检测的重要工具。选择现有的或设计全新的荧光团,结合特定的识别基团,构建新型有机小分子荧光探针是目前该领域的主要研究方向之一。本文的研究工作主要分为以下两个方面:(1)设计合成了一种水溶性近红外(NIR)荧光探针MTR-C,该探针具有类半菁结构,以丙烯酸酯作为识别基团,通过巯基亲核取代反应,实现了对半胱氨酸
电化学发光方法集成了电化学方法和光谱方法的优点,具有独特的分析性能优势,在生物检测中极具竞争力和发展前景。贵金属纳米结构表面等离子激元共振引发的耦合效应可以用于放大电化学发光信号。基于表面等离子体耦合增强的电化学发光也被称为表面增强电化学发光。氮化硼量子点是由二维片层衍生的新型纳米粒子,具有良好的光学特性、高导热性和良好的化学稳定性、低毒、分散性和生物相容性等优点。作为一种新型的电化学发光探针,氮