基于语句特征提取的文本分类方法研究

来源 :南京邮电学院 南京邮电大学 | 被引量 : 0次 | 上传用户:jun342546371
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法,进行了研究和探讨。当前的分类系统一般以孤立的词为特征单位,对孤立的词进行抽样、特征提取、获得权重,不进行语义的处理。这是由于进行语义处理需要大量的规则库和推理机,其实现方式复杂。针对这种情形,本文提出了一种将向量空间模型和语义相结合的方式,获取特征权重,进行训练文本训练,获得分类机的模式。阐述了模型的文本分类系统的结构,并给出了评估方法和实验结果,对比了各种分类方式下的效果。本文分以下几部分内容:一:本文在第一章讲述了分本分类系统当前背景情况,文本分类的几个基本步骤和常用方法。第二章讲述了统计学习的理论,从理论上进行了探讨。第三章介绍了向量空间模型和几种特征方法的获取,最后提出了新的特征获取方法。二:第四章讲述分类学习算法,以及针对本文提出的特征获取方法的分类学习方法。并且阐述了中文分类的评比标准。第五章介绍了针对本文提出的新方法建立模型的步骤和过程。三:第六章对实验结论进行阐述,并讲述了本文方法优点和缺点,以及未来研究可以做出的改进。
其他文献
关联规则在商业中的广泛应用使得它成为数据挖掘中最活越的研究方向之一。然而,在传统的基于支持度的关联规则挖掘框架中,数据之间真正的关联可能会未被发现,与此同时可能还
雇员班次安排问题(MinimumShiftDesignProblem-MSD)是劳动力资源计划问题的核心,是提高劳动效率的一个关键。它的应用领域非常广泛,其研究成果可以广泛应用于大型公司、大型商
  所谓的VPN技术是指利用隧道技术和加密技术,在公共网络上构建虚拟专用网络的技术。本文首先分析和比较了各种VPN技术的优缺点。针对传统SSLVPN模型的缺点,结合对虚拟专用网
  本文在深入研究了传统的色彩校正技术之后,提出了基于人工神经网络的色彩校正模型,对该模型进行实现,并且在校正模型的基础上,设计了通过打印输出对印刷输出进行模拟打样、显
随着J2EE规范的出现,Java语言的功能及其开发工具得到极大的扩充、丰富和发展,并在复杂的、多层次的、构件化的以及分布式的电子商务和企业级应用中发挥重要的支柱作用。论文
实时IP传真通信是IP技术与传统传真通信技术相融合的产物,具有通信实时性强、接近传统传真的操作方式、资费低等诸多优点,应用前景广阔。目前,IP传真功能通常在IP语音网关内
互联网技术的快速发展带来了网络信息量的飞速增长。与此同时,出现了如数据挖掘、搜索引擎等诸多研究领域。而这些研究的开展都离不开网络爬虫的支持。网络爬虫系统性能的好坏
篇章生成是自然语言生成研究的重要目标,而对篇章生成而言,文本规划是一个不可或缺的部分,它主要确定并组织生成的内容,对文本生成的质量起着关键的作用。当前的文本规划方法
轴承是机械设备中最常见的零部件,其性能与工况的好坏直接影响到与之相联的转轴以及安装在转轴上的齿轮乃至整个机器设备的性能。研究轴承的失效机理,提出相应的预防和维护措施,对于降低设备的维修费用,延长设备工作周期,提高经济效益,保证设备的长期安全稳定运行,均有现实的意义。目前常见的失效分析方法或是基于轴承运行信号测取,或是基于专家经验知识的主观诊断,但由于轴承结构、运行过程以及外界环境的复杂性,轴承的失
链码是图像处理中最基本的目标描述手段,大量的基础算法都是在链码的基础上进行的。基于链码的算法在数字图像处理中占有重要的角色,在对图像的实时处理更加迫切的今天尤其如此