文本分类中特征提取和特征加权方法研究

被引量 : 0次 | 上传用户:tingyuan2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来互联网技术和信息技术的飞速发展,人们可获取的数据量迅速增长。如何快速、准确、全面地从浩瀚的信息资源中寻找到所要的狭小领域内的相关信息内容,已经成为了一项十分有意义的课题。文本分类技术作为解决这一问题的关键技术之一,也成为了研究的热点。文本分类是一个复杂的系统工程,一般包括文本预处理、特征降维、特征加权、分类器训练和分类器性能评估等几个过程。本文在对这些过程进行详细了解和研究的基础之上,重点探讨了特征降维和特征加权过程。对高维的特征集进行降维是文本分类过程中的一个重要环节,它不仅可以提高分类器的速度,节省存储空间,还能够过滤一些无关属性,减少无关信息对文本分类过程的干扰,从而提高文本分类的精度和防止过拟合。特征降维可以分为两类:特征抽取和特征提取。特征提取因其方法简单、计算速度快,适合用来处理大规模的文本数据,在文本分类中得到了广泛的应用。本文详细研究了目前常用的特征提取方法,包括文档频数、互信息、信息增益、期望交叉熵、χ2统计量和文本证据权。本文分析了这些方法的各自的特点,针对这些方法的不足之处,结合类间集中度、类内分散度和类内平均频度,提出了一种新的特征提取方法。该方法突出了特征与文本类别的正相关关系,避免了考虑负相关情况所带来的干扰,综合考虑了特征和类别之间的联系,以及特征在类内出现的平均频度,是一种简单有效的特征提取方法。特征加权过程,能够改善文本集合在向量空间中的分布状态,使得同类文本的空间结构更加紧凑,异类文本的空间结构更加松散,从而简化了从文本到类别的映射关系,有利于提高文本分类器的分类性能。本文研究了经典的特征加权方法——TF-IDF,分析了它由于未考虑特征项在类间和类内的分布情况而导致对稀有特征赋予较大权值,而对类别区分贡献大的特征赋予较小权值的不足之处。进而结合了类间集中度、类内分散度,提出一种TF-IDF公式的改进形式,来弥补原始TF-IDF方法的缺陷。本文在中文文本分类实验平台上,通过多组对比实验来考察本文提出的新的特征提取方法和改进的TF-IDF方法的有效性。实验结果使用查全率、查准率和F1值等多项评价指标来衡量。结果表明新的特征提取方法能够取得比其他常见特征提取方法更优的降维效果,同时改进的TF-IDF特征加权方法的效果也要好于传统的TF-IDF方法。
其他文献
文章采用一种客观赋权的多指标综合评价方法--因子分析法,对我国35所省会城市及计划单列市1999年的经济效益状况进行综合评价,并对最后的排名结果作了简要分析.
最近几年,随着半导体技术的快速发展,半导体集成电路发生了翻天覆地的变化。而其中,半导体的隔离技术也经历了巨大发展。以前当半导体制造技术在0.25微米以上线宽的时候,用的
<正> 1989年12月初福州郊县某猪场饲养的断乳仔猪中发生一种临床以神经症状、剖检呈脑膜脑炎为特征的疾病。经流行病学检查、临诊观察、病理剖检、病原分离和药物防治,诊断为
改革开放以来,中国服装业得到了快速的发展,使得印有“中国制造”的服装越来越多的出现在世界各地。但中国并没有在服装贸易上赚到大的利润。因为在整个服装产业链中,只包含
紧随国家投资建设的拉动,国有大型施工企业的面貌日新月异,无论企业规模或管理水平,都呈现快速发展态势。资金流的迅速膨胀和管理精细化的要求,使资金集中管理成为必要,国内
功能近红外光谱成像技术(FNIRS)是一种无创的大脑皮层功能活动检测手段。相比于其它的大脑皮层功能活动检测方法,它具有较高的时间分辨率,低廉的设备成本和数据采集成本,可以
本论文将外电场作用下固化的电流变液作为类固体材料,系统研究了其稳态和动态力学特性,揭示了力学性能和链结构演化相关规律,并讨论了极板形貌修饰抑制界面滑移。发现了电流
城市公共产品供给对于居民生活质量的提高、国家经济的增长及社会秩序的稳定具有重要意义。在我国建国之初,基于客观实际的需要实施了计划经济体制。在计划经济体制下,城市被
随着我国经济的发展,工业化、城镇化进程加快,人民生活水平和消费结构得到调整,对交通运输服务需求不断提出量和质的要求。此外,运输供给能力扩张的严重制约以及信息和通信技
市场状态与交易者行为的相互关系以及信息性交易的准确测度,是指令驱动市场微观结构理论的研究热点和难点。论文分三部分、各两章内容研究市场状态如何影响交易者行为、交易