基于支持向量机的并行文本分类方法研究

来源 :辽宁工业大学 | 被引量 : 7次 | 上传用户:simetl1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据与其他数据类型相比较具有占用网络资源少,更容易上传和下载等优点,这使得网络资源中大部分数据信息以文本形式存在。由于互联网与人们的生活紧密的联系在一起,网络对人们生活的影响也越来越大,如何在海量数据中快速分析网络观点、预测网络情绪并正确引导网络舆情成为当今人们急需解决的问题。文本数据分类技术是解决这一问题的关键技术之一。“如何将文本数据准确、快速、实时分类?”始终是文本数据分类问题的热点研究内容。针对文本分类问题,提出了精简训练数据集的SPO-SVM方法,给出了基于支持向量机的文本数据分类方法。主要内容包括文本数据的预处理、SPO-SVM的训练数据集精简和文本数据集的分类方法。文本数据预处理主要包括分词、特征词提取、文本向量化。分词及特征词提取后形成特征词向量,特征词向量在多个类别文本之间具有一定的类别区分度。文本向量化后输出量化的训练样本集文件,能够满足支持向量机训练所需要的数据格式。精简数据集的SPO-SVM方法是对支持向量机训练数据集精简的方法,采用超球面划分的方法将训练数据进行区域划分。区域内数据归为一组数据,组内采用样本类别异、同作为是否进行数据约简的判断条件,给出了SPO-SVM算法设计。文本分类方法主要包括训练数据集约简、训练文本分类器、分类器精度测试三个步骤,通过在多个数据集上的测试,验证了算法的有效性。并行计算能够有效提高运算效率,设计了基于支持向量机文本分类方法的并行计算方法。使用四节点虚拟机搭建了Spark及其它组件构成的大数据计算平台,基于HDFS、Hive组件设计了文本数据清洗方法。将SPO-SVM算法应用于Spark并行计算框架,进一步提高算法的并行计算效率,验证了算法的有效性。利用支持向量机对小样本数据分类准确的特点来提高文本分类的准确性,应用精简训练数据集的方法提高训练效率,使用并行计算大数据平台提高算法的运算效率。实验数据为搜狗语料库中10个类别文档,单个类别文档数为8000。为进一步验证本课题的可行性,使用UCI网站提供多个标准数据集对SPO-SVM算法的可行性和有效性进行测试。实验结果表明,分类器模型训练速度明显提高,预测准确率与标准支持向量机一致。通过文本分类的并行算法的测试与分析,测试结果显示,SPO-SVM算法的并行计算模式可以大大提高分类器模型训练及未知文本预测速度。
其他文献
本文根据系统科学理论建立起土地利用的社会经济效益与生态环境效益的耦合模型,用耦合度来表达这两种效益之间的协调关系与程度,并以广州和深圳为例,对沿海地区土地利用效益
长征时期是中国共产党八十多年奋斗史中最艰难、最困苦的时期;长征的历史,就是一部中国共产党及其领导的红军在逆境中坚持理想信念英勇奋斗的历史;长征精神的核心就是“坚持
阐述了瑞丽江电站水轮机水力设计结构在抗空蚀、泥沙磨损方面技术特点和抗空蚀和泥沙磨损新工艺在导叶及其配合抗磨面等过流部件的运用情况,并结合与国内已经成功应用的电站
随着长距离跨流域调水工程的逐渐增多,输水管道的安全问题也日益突出,其中水锤对长距离输水管道的危害很大,因而长距离输水工程中管线安全防护的研究变得刻不容缓,而重力流作
本文旨在介绍下一代测序(NGS)方法的原理,使用流程及现阶段存在的问题,强调这种方法在对人类白细胞抗原(HLA)基因分析中的应用,及其推广的价值。
本文基于2006年中国综合社会调查数据,采用分位数回归与分解方法分析了中国城乡工资差异及其中户籍歧视的影响问题。研究结果表明:第一,从全国层面来看,城乡工资差异在工资分
我国现行的粮食直接补贴政策在补贴品种、补贴规模、补贴条件、补贴方式以及补贴标准等多个方面存在明显的地区差异 ,这可以由各地的资源禀赋、经济发展水平以及政策改革的渐
含串联电容补偿的风电外送系统存在着发生次同步振荡的风险,为降低次同步振荡风险,提出一种基于DFIG风电场整体无功出力调整的抑制次同步振荡方法。以华北某风电场为研究背景
目的探讨卵巢内胚窦瘤的诊断及治疗效果.方法对3例卵巢内胚窦瘤进行回顾性临床研究及分析.结果卵巢内胚窦瘤主要发生于儿童及青年,临床表现为腹部包块进行性增大,血清AFP异常
胡锦涛关于新形势下国防和军队建设重要论述,紧紧围绕新世纪新阶段"我军应该肩负起什么样的历史使命"这一重大时代性课题,准确把握新世纪新阶段我军历史使命,科学解答新形势