论文部分内容阅读
文本数据与其他数据类型相比较具有占用网络资源少,更容易上传和下载等优点,这使得网络资源中大部分数据信息以文本形式存在。由于互联网与人们的生活紧密的联系在一起,网络对人们生活的影响也越来越大,如何在海量数据中快速分析网络观点、预测网络情绪并正确引导网络舆情成为当今人们急需解决的问题。文本数据分类技术是解决这一问题的关键技术之一。“如何将文本数据准确、快速、实时分类?”始终是文本数据分类问题的热点研究内容。针对文本分类问题,提出了精简训练数据集的SPO-SVM方法,给出了基于支持向量机的文本数据分类方法。主要内容包括文本数据的预处理、SPO-SVM的训练数据集精简和文本数据集的分类方法。文本数据预处理主要包括分词、特征词提取、文本向量化。分词及特征词提取后形成特征词向量,特征词向量在多个类别文本之间具有一定的类别区分度。文本向量化后输出量化的训练样本集文件,能够满足支持向量机训练所需要的数据格式。精简数据集的SPO-SVM方法是对支持向量机训练数据集精简的方法,采用超球面划分的方法将训练数据进行区域划分。区域内数据归为一组数据,组内采用样本类别异、同作为是否进行数据约简的判断条件,给出了SPO-SVM算法设计。文本分类方法主要包括训练数据集约简、训练文本分类器、分类器精度测试三个步骤,通过在多个数据集上的测试,验证了算法的有效性。并行计算能够有效提高运算效率,设计了基于支持向量机文本分类方法的并行计算方法。使用四节点虚拟机搭建了Spark及其它组件构成的大数据计算平台,基于HDFS、Hive组件设计了文本数据清洗方法。将SPO-SVM算法应用于Spark并行计算框架,进一步提高算法的并行计算效率,验证了算法的有效性。利用支持向量机对小样本数据分类准确的特点来提高文本分类的准确性,应用精简训练数据集的方法提高训练效率,使用并行计算大数据平台提高算法的运算效率。实验数据为搜狗语料库中10个类别文档,单个类别文档数为8000。为进一步验证本课题的可行性,使用UCI网站提供多个标准数据集对SPO-SVM算法的可行性和有效性进行测试。实验结果表明,分类器模型训练速度明显提高,预测准确率与标准支持向量机一致。通过文本分类的并行算法的测试与分析,测试结果显示,SPO-SVM算法的并行计算模式可以大大提高分类器模型训练及未知文本预测速度。