基于语句特征提取的文本分类方法研究

来源 :南京邮电学院南京邮电大学 | 被引量 : 0次 | 上传用户：jun342546371

【摘要】

：

　　随着网络信息的迅猛发展，信息处理已经成为人们获取有用信息不可缺少的工具，文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下，根据文本的内容自动判别

【作者】

：

刘建

【机构】

：

南京邮电大学

【出处】

：

南京邮电学院南京邮电大学

【发表日期】

：

2005年期

【关键词】

：

向量空间模型特征单元分类机训练文本测试文本语句特征提取文本分类方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　随着网络信息的迅猛发展，信息处理已经成为人们获取有用信息不可缺少的工具，文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下，根据文本的内容自动判别文本类别的过程。本文对文本分类中所涉及的关键技术，包括向量空间模型、特征提取、机器学习方法，进行了研究和探讨。当前的分类系统一般以孤立的词为特征单位，对孤立的词进行抽样、特征提取、获得权重，不进行语义的处理。这是由于进行语义处理需要大量的规则库和推理机，其实现方式复杂。针对这种情形，本文提出了一种将向量空间模型和语义相结合的方式，获取特征权重，进行训练文本训练，获得分类机的模式。阐述了模型的文本分类系统的结构，并给出了评估方法和实验结果，对比了各种分类方式下的效果。本文分以下几部分内容：一：本文在第一章讲述了分本分类系统当前背景情况，文本分类的几个基本步骤和常用方法。第二章讲述了统计学习的理论，从理论上进行了探讨。第三章介绍了向量空间模型和几种特征方法的获取，最后提出了新的特征获取方法。二：第四章讲述分类学习算法，以及针对本文提出的特征获取方法的分类学习方法。并且阐述了中文分类的评比标准。第五章介绍了针对本文提出的新方法建立模型的步骤和过程。三：第六章对实验结论进行阐述，并讲述了本文方法优点和缺点，以及未来研究可以做出的改进。

其他文献

关系数据库上强相关项目对的挖掘算法研究

关联规则在商业中的广泛应用使得它成为数据挖掘中最活越的研究方向之一。然而,在传统的基于支持度的关联规则挖掘框架中,数据之间真正的关联可能会未被发现,与此同时可能还

学位

关联分析项目对皮尔森关联系数数据挖掘

雇员班次安排问题的算法研究

雇员班次安排问题(MinimumShiftDesignProblem-MSD)是劳动力资源计划问题的核心，是提高劳动效率的一个关键。它的应用领域非常广泛，其研究成果可以广泛应用于大型公司、大型商

学位

雇员班次安排需求表差额雇员数目网络流

一种基于安全隧道技术的应用层VPN的研究与分析

　　所谓的VPN技术是指利用隧道技术和加密技术，在公共网络上构建虚拟专用网络的技术。本文首先分析和比较了各种VPN技术的优缺点。针对传统SSLVPN模型的缺点，结合对虚拟专用网

学位

安全隧道技术VPNSSL/TLS协议PPTP协议IPSec协议应用层L7VPN模型虚拟专用网

基于人工神经网络模型的色彩校正技术的研究

　　本文在深入研究了传统的色彩校正技术之后，提出了基于人工神经网络的色彩校正模型，对该模型进行实现，并且在校正模型的基础上，设计了通过打印输出对印刷输出进行模拟打样、显

学位

色彩校正人工神经网络色空间转换色域匹配色彩管理颜色数据复制

通用国有资产管理系统SAM的设计与实现

随着J2EE规范的出现,Java语言的功能及其开发工具得到极大的扩充、丰富和发展,并在复杂的、多层次的、构件化的以及分布式的电子商务和企业级应用中发挥重要的支柱作用。论文

学位

软件复用J2EEXMLEJB工作流

语音网关IP传真模块的设计与实现

实时IP传真通信是IP技术与传统传真通信技术相融合的产物,具有通信实时性强、接近传统传真的操作方式、资费低等诸多优点,应用前景广阔。目前,IP传真功能通常在IP语音网关内

学位

IP传真软交换媒体网关控制协议T.38T.30H.323

一种高性能网络爬虫系统关键技术研究

互联网技术的快速发展带来了网络信息量的飞速增长。与此同时，出现了如数据挖掘、搜索引擎等诸多研究领域。而这些研究的开展都离不开网络爬虫的支持。网络爬虫系统性能的好坏

学位

网络爬虫布隆过滤器链接提取数据缓存

基于XML的文本规划方法

篇章生成是自然语言生成研究的重要目标,而对篇章生成而言,文本规划是一个不可或缺的部分,它主要确定并组织生成的内容,对文本生成的质量起着关键的作用。当前的文本规划方法

学位

文本规划修辞结构理论谓词模式可扩展标记语言

基于贝叶斯网的轴承失效分析应用研究

轴承是机械设备中最常见的零部件，其性能与工况的好坏直接影响到与之相联的转轴以及安装在转轴上的齿轮乃至整个机器设备的性能。研究轴承的失效机理，提出相应的预防和维护措施，对于降低设备的维修费用，延长设备工作周期，提高经济效益，保证设备的长期安全稳定运行，均有现实的意义。目前常见的失效分析方法或是基于轴承运行信号测取，或是基于专家经验知识的主观诊断，但由于轴承结构、运行过程以及外界环境的复杂性，轴承的失

学位

轴承失效分析贝叶斯网络不确定性结构学习网络推理

基于链码的部分算法研究

链码是图像处理中最基本的目标描述手段，大量的基础算法都是在链码的基础上进行的。基于链码的算法在数字图像处理中占有重要的角色，在对图像的实时处理更加迫切的今天尤其如此

学位

链码目标面积轮廓方向轮廓填充膨胀腐蚀直线检测

基于语句特征提取的文本分类方法研究

其他学术论文