文本分类中基于方差的改进特征提取算法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:stage7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异。为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重。仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果。
其他文献
利用Oracle大型数据库管理系统,采用BWD样式、套嵌字通讯技术、ADO和JDBC连接技术,从计算机软/硬件平台、网络结构、信息管理及信息安全等多方面进行设计,实现了一种可以存储海量
通过工作站或者PC集群利用客户机内容请求来进行负载分配,这种模式具有很多吸引人的特性,但当前Internet标准去实现以基于内容的负载分配有相当的困难.论述了为达到基于内容
对比国内外物流专业实践教学经验,在分析国内外物流实践教学共同趋势及差异的基础上,结合我国中职院校物流专业实践教学存在的问题,吸取国内外教学经验与特色,提出物流专业职