【摘 要】
:
随着网络和信息技术的快速发展,大规模的文本处理得到持续研究和关注。大规模文本分类面对的是巨大的文本和类别数量,高维的特征空间对分类算法带来极高的计算复杂度和空间复
论文部分内容阅读
随着网络和信息技术的快速发展,大规模的文本处理得到持续研究和关注。大规模文本分类面对的是巨大的文本和类别数量,高维的特征空间对分类算法带来极高的计算复杂度和空间复杂度,且影响算法的可扩展性。对特征空间有效的降维不仅可以提高分类的效率和效果,而且可以提高分类器的泛化能力,因此对特征空间实施降维是非常必要的。本文研究了文本分类的关键技术;讨论了对特征向量空间进行降维的必要性;分析了特征空间降维常用的方法;由于主流的特征提取方法不能处理高维的特征空间,提出采用迭代的CCIPCA和ICA算法,解决大规模文本分类的降维问题;针对特征选择和特征提取方法的不足,采用了一种ICA与IG组合的降维方法;用分类对比实验对CCIPCA和ICA算法的有效性和可行性进行了评估,分析了实验结果及其产生的原因。分类对比实验结果表明:基于迭代的CCIPCA和ICA特征提取方法,所需计算空间较小,可以有效处理大规模文本分类问题,在降维的基础上提高了分类效果;在相同的数据集上,在CCIPCA、ICA及ICA与IG组合降维的方法中,基于ICA降维的分类效果是最好的。
其他文献
随着机电系统复杂性的日益增加,系统层设计已成为复杂机电系统开发过程中不可缺少的环节。基于模型的系统工程(MBSE)及其标准建模语言SysML为系统层设计提供了一定的支持。然而,由于复杂机电系统自身的特点,使得SysML这一通用建模语言无法直接应用于其系统建模中。本文从复杂机电系统设计的需求出发,为其系统层建模与仿真提供了一套较完整的解决思路。本文首先分析了复杂机电系统建模的需求,即混合行为建模、多
本课题以面向电子商务的集成供应链管理系统研究开发为应用背景,着重探讨客户关系管理(CRM)系统。随着客户需求的个性化和多样化,传统的CRM系统的协同性和应对变化的能力稍显
互联网的迅速普及给我们生活带来便利的同时,也带来了新的问题。互联网具有匿名性和开放性的特点,也就是说任何人在任何时间、地点都可以通过互联网发布信息或进行交易,而不
本文是一篇关于EPON产品研发的文章。EPON是目前最有前景的解决“信息高速公路上的最后一公里”网络瓶颈问题的接入网方案,因此受到业内人士的广泛关注,不少企业投入了人力和物
随着计算机和互联网技术的快速发展,利用信息化方法对证券数据进行分析评估越来越多地被各种银行企业及投资机构所采用。证券数据本质上是大量的时间序列数据,如果能在传统的金
随着我国城市化进程的快速发展以及区域经济发展的不平衡,产生大量人口的地区间迁移需求,对交通运输发展提出了更高的要求。随着高速铁路的迅速发展、高速铁路网络的不断建设
网络虚拟社会是现实社会在网络上的映射和延伸,具有独特的性质和特征。由于网络虚拟社会的开放性、虚拟性、交互性,挖掘网络虚拟社会的特性及其成员行为特征成为研究的热点,
随着空间数据库研究不断深入和应用和通信技术的发展,对嵌入式空间数据库的研究成为嵌入式GIS应用的难点和突破点。研究目的在于为空间信息提供一个高可靠、高效率的基础软件
随着2007年8月《汉信码》标准的发布,汉信码对提升我国条码技术开发水平、应用水平,尤其对二维条码的应用领域起到了重要的促进作用。本文研究的目的是分析探讨汉信码的编码
随着科学技术的迅猛发展,人们对三维空间世界信息的需求量与日俱增。三维可视化技术一直以来都是计算机技术的研究重点之一,它涉及到计算机图形图像处理、计算机辅助设计及人