基于半监督学习的文本分类算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:eimayao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术和网络技术的发展的同时也带来了信息海量增长,因此如何将信息有效的分类以便人们更加高效的利用信息是一项艰巨的任务。文本形式的信息广泛应用于信息检索、文本数据库、数字图书馆、垃圾邮件识别、信息过滤和微博主题挖掘这些贴近人们生活的领域中。本文以中文文本分类领域为背景,首先分析了中文文本分类领域的发展现状,针对现阶段存在的问题,改进了基于半监督学习的中文文本分类算法。改进后的文本分类算法弥补现有文本分类算法的缺陷,并发挥半监督学习在少量训练样本下训练的优势:可以在尽量保持分类算法的分类正确率的前提下,减少文本分类过程中人工的参与。本文的基于半监督学习的中文文本算法具有如下几个特点:引入基于密度的聚类算法,并将主题类别数目自确定问题映射到基于密度聚类的类别数目确定问题中,使用基于密度的聚类算法OPTICS对文本向量进行聚类从而确定类别数目;使用LDA主题模型作为聚类器,利用其计算结果自动对样本进行标记,解决了有标签训练样本获取问题;在Tri-Training协同训练框架下,训练完成后在分类时使用了加权投票分类方法,扩大了传统分类算法的适用范围。本文对半监督学习文本分类算法的整体流程并对其效果进行了实验和分析。结果表明本文给出的方法在实际应用取得了良好的效果,对中文本文分类技术的进一步研究也具有一定的借鉴作用。
其他文献
近年来,XML已经成为一种数据交换的标准形式,越来越多的数据以这种形式进行存储,在这些数据中隐含着大量的知识信息,需要进行数据挖掘处理。目前针对XML数据挖掘的方法,大多
纹理合成与编辑是近年来国内外一个比较活跃的研究领域,有关纹理编辑与合成的研究在计算机视觉、图像处理及计算机图形学领域都占有重要的地位,有着非常广阔的应用前景。传统
近十几年来,随着信息技术和计算机技术的快速发展,对信息安全提出了越来越高的要求,并使得作为信息安全核心的加密技术及其实现变得越来越复杂。保障各种网络活动中的信息安全,成
随着机动车的日益普及,交通拥挤问题日益突出。在现有的条件下,如何提高交通控制和管理水平,合理使用现有交通设施,充分发挥其性能,是解决交通问题的有效方法之一。随着计算机硬件
工作流的建模和分析技术是商业过程的组织、管理以及工作流管理系统的设计和实现的基础。在设计和开发工作流管理系统时,首先要使用形式化的模型方法对工作流程进行正确、清
在以往的教学中,形成的是以教师为中心,教师讲授、学生接受的教学模式。这种教学模式有利于知识的传授和积累,有利于课堂教学的组织和实施,但同时也限制了学生自我发挥、探究
Web Service是基于组件的软件平台,是面向服务的Internet应用。它能够统一封装各种信息、行为、数据表现以及业务逻辑流程,而无需考虑应用所在的环境是使用何种系统和设备。
随着无线网络和多媒体通信技术的发展,移动多媒体业务将得到越来越广泛的应用。在移动通信系统中,如何根据用户的需求提供服务质量保证是移动多媒体通信发展过程中面临的重要
在视频压缩中,使用基于块匹配技术的运动估计能够有效去除视频序列之间存在的大量时间冗余,对于提高压缩的效率是至关重要的。采用全搜索算法可以得到最优解,但是它的实现需
随着Intemet领域的不断扩大,互联网络技术的高速发展,C/S和B/S软件架构已经不能满足现在不断出现的新需求。随着微软NET战略的推出,一个新的概念——智能客户端以其灵活充分使用客