【摘 要】
:
随着5G时代的来临,加之物联网设备的大量应用和普及,使得产生的数据显现出指数增长,其中很大一部分的数据是以杂乱的文本格式存储的,怎样把这些海量文本数据通过文本分类技术进行归类展示,已经逐渐成为研究的焦点,而文本特征选择是文本分类的一个重要组成部分,对文本处理的速度和低分类精度有着直接影响。文本特征选择是采用一个特定的评价函数来对特征统计、评估、排序,然后选择评估值较大的特征项,形成一个小于原有的文
论文部分内容阅读
随着5G时代的来临,加之物联网设备的大量应用和普及,使得产生的数据显现出指数增长,其中很大一部分的数据是以杂乱的文本格式存储的,怎样把这些海量文本数据通过文本分类技术进行归类展示,已经逐渐成为研究的焦点,而文本特征选择是文本分类的一个重要组成部分,对文本处理的速度和低分类精度有着直接影响。文本特征选择是采用一个特定的评价函数来对特征统计、评估、排序,然后选择评估值较大的特征项,形成一个小于原有的文本特征空间的子集。同时,大数据处理和云计算技术的发展和应用逐渐成熟,能够实现并行数据的计算和存储需求。本文在对分布式文本特征提取基本方法和理论知识的深入研究上,优化特征选择的子集,完成了以下三个工作:(1)蝙蝠算法用于文本特征选择。使用?~2统计进行文本特征初降维,并针对该方法的不足,引入蝙蝠算法对特征进行二次筛选,用以降低文本维度。(2)蝙蝠算法并行化策略。因为文本分类,需要已有的数据集进行模型训练,当训练数据达到一定量级后,原有的蝙蝠算法的运行效率会逐渐下降。本文结合Spark并行计算模型基于内存运算的优势提出了基于Spark的蝙蝠算法用于文本特征选择方法。通过Spark分布式计算模型,改进算法的计算,将蝙蝠算法迭代并行的过程发布到Spark集群上,提高了蝙蝠算法的计算速度和效率,节省了计算时间。(3)蝙蝠算法多策略改进。通过对传统蝙蝠算法优缺点进行分析研究,提出一种基于Spark多策略改进蝙蝠算法的文本特征选择方法,并采用准确率、召回率和F-measure值来进行评估和分析。实验证明改进后的算法提高了文本分类的准确率。
其他文献
传统的机器人焊接只能应用于较为简单的弧焊和点焊,针对接管与容器交叉的复杂空间相贯线焊缝,考虑其焊接轨迹的复杂性和焊缝焊接工艺要求,传统的焊接机器人完成该类型焊接任务具有相当难度。随着工业机器人技术的发展,双机器人协作运动方法也逐渐被研究和采用,本文针对较为复杂的空间相贯线焊接任务采用双机器人协作运动完成,结合焊接机器人实际情况和焊接工艺要求对双机器人的焊接运动轨迹规划和系统控制方面开展研究,主要工
氮化硅(Si3N4)陶瓷是一种性能优异的先进陶瓷,因为其具有较高的强度、在高温下仍可以保持好的力学性能、优异的耐化学腐蚀性,在工程领域有着广泛的应用。然而氮化硅陶瓷的硬度
中间相沥青是高性能炭材料的基础原材料,主要应用于制备高性能沥青碳纤维、泡沫碳、针状焦等。其中高性能沥青碳纤维被广泛应用于航空航天、国防军工、新能源、热管理等领域,
英语阅读在高中英语教学中占有重要地位,因此在英语教学中培养学生的英语阅读能力是必要的。英语阅读是一个思维活动的过程,在这一过程中学生通过理解阅读文本的内容和作者的写作意图在头脑中建构自己的知识体系。《普通高中英语课程标准(2017年版)》将思维品质列入英语学科核心素养,并将其定义为思维在逻辑性、批判性、创新性等方面所表现的能力和水平。批判性思维是一种重要的思维方式,批判性思维技能是运用批判性思维方
阅读教学在小学语文课堂中有着至关重要的地位,但是随着时代的发展,传统阅读教学已不能满足对学生发展的要求。一些专家学者依据统编本教材“双线组织单元”的编排特点,提出了单元主题阅读教学模式,但是单元主题阅读教学在具体的实施过程中仍然存在着诸多问题。与此同时,笔者发现深度学习理论能够有效解决单元主题阅读教学中的问题。因此,本研究从小学高段单元主题阅读教学的现状调查入手,结合“深度学习”理论提出改进单元主
《义务教育英语课程标准》(2017版)指出,义务教育阶段教育的课程应该面对全体学生,体现学生为主的主体思想,学生可以在真实的语境中学习以及运用语言。英语作为一种用于交流的语言工具,从根本上说,英语语言的教学过程就是师生的互动过程。英语课堂教学主要就是通过师生之间的交流和互动来完成的。然而作为教育的基本要素之一,在教育体系中,学生言语常常不被重视。学生作为课堂的主体,在师生互动的过程中不断进行语言的
近年来,国民创新水平不断提升,中国专利发明申请数持续上涨,多年排名世界第一,远超其他国家。随着专利申请量的大幅提升,国民对于专利价值评估的需求也有了巨幅的增长。专利在其生命周期内的大部分行为都需要对其价值进行评估,如在专利转让、专利侵权等情况。传统的专利价值评估方法由于流程复杂,评估周期长,对于小企业、小团体以及个人对自身拥有的专利价值有一个合理的认识存在一定的难度,不利于我国知识产权的良性发展。
无线通信技术的发展,使得无线传感器网络的研究取得了巨大的进展,定位技术作为无线传感器网络的关键技术,具有非常重要的研究意义和应用价值。人们在生活中对位置服务的需求越来越多,尤其是室内环境下,GPS信号无法穿透建筑以及无线信号的传播可能会受到反射、折射以及多径效应的影响。由于这些因素,室内场景下定位要远比室外定位更加困难。本文将从无线传感器网络定位技术入手,搭建自主协议的无线传感器网,应用提出的室内
在我国迈入经济发展转型的过程中,面临着经济增长下行压力大、劳动力市场供给不足等众多问题。在这种背景下,如何实现经济可持续发展,提供更多的就业岗位以保障民生,是我国政