基于类别的特征选择算法的文本分类系统

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:a0701302
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本自动分类技术是自然语言处理的一个重要的应用领域,是替代传统的繁杂人工分类方法的有效手段和必然趋势。特别是随着互联网技术的发展,网络成为人们进行信息交互和处理的有效的平台,各种数字化的信息每天以极高的速度增长。面对如此巨大的信息,人工分类选择已经无能为力,计算机自动分类己成为网络时代的必然选择。 目前,对于文本分类技术的研究,大多数研究者的精力主要放在各种不同分类方法的探索与改进上。然而,文本分类中的特征选择(或称特征提取、索引词选择)一直是文本分类的关键技术和瓶颈技术。所以,对特征选择算法的研究是十分必要的。 本论文对文本分类中所涉及的各项技术进行了较全面的阐述,特别对当前文本分类中各种常用特征选择算法的性能以及优缺点进行了分析。通过以上分析,作者发现目前的索引词选择算法都是基于词频的,没有利用训练样本中的类别信息。为此,作者提出了一种新的基于类别的特征选择方法,并以此为基础设计了一个英文文本自动分类系统。 接着,论文根据不同特征选择阈值下的分类性能,确定了特征选择的初始阈值,并在该阈值下,对系统完成了不同实验条件下的、面向大规模真实文本的分类性能测试,包括:在开放测试和封闭测试下系统的性能;在不同原始特征空间维数下的分类性能;相同条件下与SVM和Naive Bayes分类器的分类性能比较。之后,论文对测试结果进行了理论分析,确定了基于类别的特征选择算法能够在一定程度上提高分类系统的性能。进一步地,论文通过与Naive Bayes分类器在相同条件下的训练分类时间对比,分析了本文设计的基于类别的特征选择算法以及实现的分类系统的效率。 最后,本文通过上述实现技术的阐述及其对实验结果的分析,提出了一些关于文本分类及特征选择方法研究的见解,并对今后的研究工作进行了展望。
其他文献
网络处理器作为一种面向网络应用的协议处理器,由于其能够同时满足高性能和灵活性两方面的要求,正受到越来越广泛的应用。本文主要讨论基于网络处理器的防火墙安全过滤的设计
从50年代初机器翻译课题的提出至今,自然语言处理的研发历史至少也有50年了,其间经历了从以通过自省方式学习符号文法和手工编写规则为主要方法的“理性主义”到日益强调以对真
该文主要论述了在一种嵌入式Linux操作系统的环境下、以GPRS技术实现的远程无线监控系统.重点是GPRS技术在系统中出现的问题及其解决方法、系统终端控制模块的研究与实现.全
为适应21世纪社会经济和科技发展对高素质创造型人才的需要,当今的现代教育技术提供了教学模式改革所必须的技术支持手段,这种新的技术手段就是网络教学。现代远程教育运用计算
随着科学技术的迅猛发展,有很多新的检测技术问题用传统的方法难以解决,人们不断探索研究新的检测技术。 可拓学是唯——门由中国人创立的学科。该学科应用于人工智能,决策系
随着计算机应用的飞速发展,数据流的查询处理逐渐成为当前数据库领域新的研究热点。在数据流的查询处理中,查询操作算法对于查询处理的性能有着很大影响,本文致力于数据流查询操
协议分析从网络通信协议特有的规则性出发,是目前比较先进的信息检测技术,它克服了传统的模式匹配技术的一些根本性缺陷,是入侵检测的一个研究热点。本论文采用协议分析进行网络