一种基于PCA的组合特征提取文本分类方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:lisong459
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了获得更好的文本分类准确率和更快的执行效率,研究了多种Web文本的特征提取方法,通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究,利用其各自的优势互补,提出一种基于主成分分析(PCA)的多重组合特征提取算法(PCA-CFEA)。通过PCA算法的正交变换快速地将文本特征空间降维,再通过多重组合特征提取算法在降维后的特征空间中快速提取出更具代表性的特征项,过滤掉一些代表性较弱的特征项,最后使用SVM分类器对文本进行分类。实验结果表明,PCA-CFEA能有效地提高文本分类
其他文献
人们目前膳食脂肪酸构成与以往相比发生了很大变化,其中n-6多不饱和脂肪酸(n-6 polyunsaturated fatty acids,n-6PUFAs)摄入量增加,而 n-3 多不饱和脂肪酸(n-3 polyunsaturat
本文分析了地表水地源热泵在千岛湖库区的适用性,介绍了杭州普天别墅项目地源热泵系统工程实例,并与VRV空调系统+电热水器的全年运行费用相比较,得出该系统全年运行费用可节省50%
为了提高金属件的清洗效果,现有的清洗剂中往往加入多种表面活性剂,因而会产生大量的泡沫。什么样的消泡剂为好?笔者在中强碱、强碱和强酸介质中进行系统的研究,选出了一种消
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
最近,两名自称是“房管人员”的陌生男子来到四川省广安县浓洄镇凉亭街公房承租户王登碧家,向其索要1994年度房租费150元。王见该数目与当地房管部门通知交款金额69.72元不一
随着电视节目的快速发展,脱口秀成为了喜闻乐见的娱乐节目。脱口秀节目的核心语言特色之一就是幽默。脱口秀节目的主持人使用了幽默这种元素可以娱乐大众,也起到了教化的作用
随着语际语用学学科的兴起,已经逐渐有越来越多的学者致力于研究二语学习者语用能力的发展问题。然而关于语用能力与语法能力之间的相互关系,在语言学界一直没有定论,因此亟
A.S.拜厄特(1936--)是英国当今享有国际声望的,最富有智慧和想象力的重要作家之一。其作品具有浓厚的现实主义传统与鲜明的后现代主义特征,因而备受评论界关注。国外对其研究
猫场矿区首采矿段直接顶.底板含硫、含硅较高是影响首采矿段开发的关键因素;首采矿段开拓工程布置应遵循三条原则并分三期进行建设;提出开拓方案布置,采矿方法方案设想及首采
人际称谓指人类在社会交际中所使用的各种称谓语。它是语言中的一个特殊系统,与许多学科紧密相关并受到语言学家和文化人类学家的高度重视。本文将越语人际称谓分为亲属称谓