基于降维中心法的文本分类研究

被引量 : 0次 | 上传用户:liuhongyu1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网络的高速发展和信息量猛增,传统的人工方式已经无法有效地处理海量的文本信息。使用计算技术实现文本的自动分类,可以提高文本信息管理的效率,节省大量的人力物力资源,因此文本分类的研究受到了广泛的关注,是一个十分有意义的研究课题。中心法具有分类准确率高,编程简单易于实现等优点,近年来相关学者提出了诸多中心法的改进算法。可多数的改进中心法是将类别中心的计算转化为优化问题,再应用最优化技术进行求解。虽然提高了分类性能,但是却延长了算法的运行时间。本文针对中心法运行时间较长的缺陷,提出了基于降维中心法并将其应用于文本分类。本文算法基于精炼文本特征,剔除多余的冗余信息的思路,将对文本特征进行降维的思想引入到中心法中,以求获得性能和效率上的双重提升。本文主要工作列举如下:1.本文对文本分类的国内外研究现状进行了概述,分析了基于向量空间模型的文本表示方法以及它对分类效果的影响,讨论了对特征向量空间进行降维的必要性和基本思想。2.为了解决特征数较多造成中心法运行时间较长的问题,本文提出了基于线性降维的中心文本分类算法LDA-CC和PCA-CC,基于流形降维的中心文本分类算法LLE-CC、ISOMAP-CC和基于语义降维的中心文本分类算法LSI-CC。其中,基于线性的降维方法使用的是主成分分析和线性判别分析两种方法。在基于流形降维的方法中,本文使用的是最具有代表性的在局部使用线性插入的流形降维法和拉普拉斯特征映射流形降维法。而基于语义的降维方法选用的则是潜在语义索引的方法,并对每种方法的理论进行了分析,针对每种方法的特点将之嵌入到中心法的分类过程中,理论上实现了基于线性的降维中心法。3.在两个标准数据集上对本文提出的LDA-CC、LLE-CC、ISOMAP-CC和LSI-CC算法进行了实验评测,并详细地比较了在每一个数据集上分别选用不同维数进行降维时对中心分类算法所带来的影响。实验分析表明,本文算法在提高中心文本分类算法执行速度的同时,还可以有效地提高其分类性能并降低内存消耗。
其他文献
生活垃圾转运站是城市垃圾收集处理的枢纽环节,生活垃圾转运站的自动化控制和信息化管理水平同其社会效益与自身运营效率有着直接的联系。本文,基于生活垃圾转运站实施自动化
在影响政策执行的诸多非制度因素中,"潜规则"政治文化是一个重要方面。本文就"潜规则"政治文化对政策执行的影响和危害进行了分析,并提出了控制"潜规则"政治文化的影响以提高
冷战结束以后,蒙古在东北亚地区的战略地位日益凸显,日本通过高层互访、经济援助及贸易和文化交流等积极地推动对蒙古的全方位外交,扩大其在亚太地区乃至全球的影响力。蒙古
堆垛机是自动化立体仓库中重要的起重堆垛设备,本文根据堆垛机的特点和设计要点,详细论述了堆垛机存取货机构、提升机构、行走机构和安全保护装置的设计方案,其中存取货机构
提高幼儿教师专业化水平,提高幼儿教师教育质量中《国家中长期教育改革和发展规划纲要(2010-2020年)》所强调的,并且对保定地区用人单位对学前教育本科专业用人需求调查后发
介绍蔬菜农残速测仪检测原理、方法以及使用的注意事项,以为农残速测仪的使用提供参考。
在系统功能语法的理论框架下,从语气和情态系统的角度分析社论语篇的人际功能。通过分析,找出了与这一语篇体裁相适应的语言表现形式所体现出的微观特征,即在人际功能方面,大
综述杏鲍菇的营养成分、杏鲍菇多糖的提取及测定、杏鲍菇多糖的生物活性研究等方面内容,以期进一步开发和利用杏鲍菇真菌资源,提高其在食品和医药领域中的广泛应用。
党的十八届三中全会提出要全面深化改革,完善社会治理。那么,在新型城镇化建设不断深化的新形势下,如何促进农村基层社会治理更加完善、农村发展更加美好,这给当前我国乡村社
目的探讨分析临床营养师在营养支持小组中的作用及临床实践。方法对本院儿科2013年1月至2014年12月临床营养师在营养支持小组中的临床实践情况进行回顾性分析。结果 2013年度