中文文本分类中特征提取算法研究

被引量 : 0次 | 上传用户:hbb88191312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和信息技术的飞速发展,人们可获得的知识越来越多,但是面对具体的知识,要在这浩瀚的信息世界中快速获得却是很困难的。面对这一矛盾,人们想到了知识分类技术,这一技术的出现立即获得了人们广泛关注,同时知识分类中的文本分类也成为了研究的热点。文本特征提取算法是文本分类中研究比较多,比较重要的问题。本文通过分析传统的TFIDF算法发现其存在如下缺点:1)没有考虑特征词在类间的分布,如果一个特征词,在各个类间分布比较均匀,这样的词对分类基本没有贡献;但是如果一个特征词比较集中的分布在某个类中,而在其它类中几乎不出现,这样的词却能够很好代表这个类的特征,然而传统的TFIDF算法不能够区分这两种情况;2)没有考虑特征词在类内部文档中的分布情况。在类内部的文档中,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征,如果只在几篇文档中出现,而在此类的其它文档中不出现,显然这样的特征词不能够代表这个类的特征。针对传统的TFIDF算法的缺陷,运用特征词在类间和类内部的分布信息来改进传统的TFIDF算法。方差是描述随机变量分布情况的指标,本文用方差来描述特征词在类间的分布情况。如果特征词方差小,说明其在类间的分布比较均匀,这样的特征词对分类贡献不大,可以用方差来降低该特征词的权重;而特征词在类内部的分布情况也可以用方差来描述,与类间分布不同的是,特征词在类内部分布方差越小,即在类内部分布越均匀,特征词越能代表此类,因此在修正TFIDF公式时,应该将其TFIDF值调大。本文的另外一个工作是,将遗传算法运用到特征提取中。本文抛弃了传统特征提取方法为每个文档进行特征提取的思想,而是为每个类进行特征提取。首先用常用的特征提取算法量化各个特征词的权重,然后用遗传算法来修正特征词的权重,直到为每个类训练出能够代表本类的特征向量(又叫分类器),最后用这些类的特征向量进行分类。为了验证提出的改进TFIDF方法的正确性及其遗传算法用于中文文本分类的效果,本文进行了两个实验:1)将传统的和改进的算法提取的特征词用于KNN算法分类的对比实验;2)将遗传算法用于特征提取的实验结果和KNN分类结果比较。实验一结果表明无论从整体混淆矩阵、总体查全率、查对率、以及各个类的查全率、查对率方面,改进方法都要优于TFIDF传统算法;实验二结果显示:遗传算法作为特征提取的分类结果和KNN方法的分类结果相当,并且略好于KNN分类
其他文献
本文试用谈判的研究方法对中国和原联邦德国建交谈判过程这一问题进行探讨。笔者认为从1955年到1972年存在三次可能导致中国与原联邦德国进行建交谈判的时机,分别出现在1955
人物速写的目的在于提高学生的审美素质。人物速写在高等教育中具有十分重要的作用,速写教学要结合美术自身的特点和学生成长的规律,不断探索提高学生手头功夫的方法和途径。
高效节能过程装备的研究开发是当今工程节能的重要手段。换热器是化工、炼油、动力、食品、轻工、原子能、制药、航空及其他许多工业部门广泛使用的一种通用工艺设备。管壳式
化学镀镍镀层中磷的含量对镀层的物理化学性质有很大的影响。明确化学镀镍过程中磷的析出机理及影响因素,是控制磷含量的先决条件。然而,目前对此尚没有深入的研究。本文采用
为了提高学生人物速写的水平,提升学生的艺术素养,通过基础理论知识体系的构建和正确观察方法的培养,使学生在人物速写训练中出现的若干问题得到解决。结果表明,通过这两种方
本文以在线仲裁为研究主题,综合运用实证法、比较法、历史分析法,对在线仲裁的界定、电子仲裁协议的效力、在线仲裁地、在线仲裁庭审、在线仲裁裁决五个问题展开详细论述,并
随着政府对钢铁企业产业集中度的调整,我国中小钢铁企业面临着生存与兼并重组的机遇和挑战,为此,中小钢铁企业必须从自身出发,不断完善企业的内部管理机制,以提高企业的核心
由于成品油批发市场即将向国外石油巨头开放,这将使得国内两大集团因利用对成品油资源的垄断供应获得的核心竞争优势将不复存在。如何保持成品油销售企业的核心竞争优势,进一步
改革开放以来,我国社会主义市场经济和社会各项事业迅猛发展,呈现蓬勃向上、欣欣向荣的景象。与此同时,经济不断快速发展的扩张性与社会和自然资源的有限性之间的矛盾日益突
城市的发展日新月异,许多新建小区大量出现,公交线路也日渐增多,给人们的出行带来了极大便利,但是由于城市规模的不断发展,给人们选择出行乘车线路造成一定的困难,特别是在旅