层次文本分类中阻塞减少策略的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:yingying0615
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子信息的增长使得人们无法快速地找到自己真正感兴趣的内容。为了更好的组织和管理信息,研究者们引入了文本分类、特别是层次型文本分类技术。相对于层次型文本分类中的爆发式,自顶而下式层次分类能够更好的利用层次结构所提供的信息,然而此种层次分类法也存在“阻塞”这一缺点:如果一个文本在某个正确的祖先类别上被拒绝,则其永远不可能被分到正确的叶类别上。由于阻塞会导致层次分类系统分类精度的降低,故阻塞减少策略在近年来得到了广泛的关注和研究。本文在前人工作的基础上,着重对阈值降低类的阻塞减少策略进行了研究。本文首先对文本分类和层次文本分类的基本概念和知识进行了归纳;分析了阻塞对层次分类精度的影响;依据现有阻塞减少策略特点将其分为阈值降低类、累乘类和分类器组织类三种类型,并分析比较了三类方法各自的优缺点;讨论了阈值降低法的同平面型分类中SCut策略的区别与联系。在此基础上,本文从改变阈值降低法中使用的阈值策略,改用其它可调参数备选值较少的阈值策略出发,提出了基于柱状搜索的阻塞减少策略,实验表明本方法在减少阻塞、增大叶类别查全率的同时,仍然能够保持较高的查准率,而且整个系统的F1M测度也比较高;考虑到其它分类器阈值确定后分类器Ci的阈值变化只影响其工作域类别分类效果的性质,提出了基于预测的阻塞减少策略,实验表明本方法能够减少阻塞、增大叶类别查全率,提高整个系统的F1M测度,但同时查准率有少许下降;最后在借鉴平面型分类PCut策略的基础上,通过利用线性分类器输出得分分布的特点,提出了基于概率密度估计的阻塞减少策略,实验表明本方法虽能够很好的减少阻塞、增大叶类别查全率,但由于查准率过低导致整个系统F1M测度的下降。在对三种策略进行详细说明的基础上,我们使用Reuters21578文本集对标准层次分类法和阈值降低类方法进行了对比实验,并结合实验数据对基于概率密度估计的阻塞减少策略的效果进行了探讨和分析。最后我们使用S-test标准衡量了各种方法对标准层次分类法的改良程度,结果表明基于预测的阻塞减少策略在同阈值降低法近似的计算耗费下,为层次结构中各个内部分类器设置了最为合理的阈值,在减少阻塞的同时,能够提高较多叶类别的分类效果,因此我们认为该策略减少阻塞提高分类效果的作用最显着。
其他文献
随着因特网的迅猛发展,网络已成为信息交换的主要手段。许多企事业单位都组建了自己的局域网,通过网络实现资源共享和协同工作,大大的提高了工作效率。但是由于网络协议标准T
随着全球计算机互联网络用户覆盖范围和信息传输量的迅速发展,各类网络应用也日益增多。人们的社会活动和经济活动越来越依赖于计算机网络,因而网络的安全性已成为信息化建设
人脸检测是人脸自动识别系统的重要组成部分,检测精度直接影响着人脸识别的性能。近几年来,随着多功能感知研究的兴起,人脸检测问题开始在国际上引起关注,并已逐渐发展成为一个相
众所周知,网络管理系统在管理复杂网络,提高网络设备利用率方面起着关键作用。随着网络的发展,新一代网络管理已经朝着可视化和智能化发展,网络拓扑自动发现是网络管理图形化
本文主要研究了支持多种依赖注射方式的轻量级IoC(MTIoC)容器的设计问题,其目的是减小容器中组件间的耦合度,缩短程序开发的周期,以便于组件的重用,构建清晰、简洁的解决方案
行人检测技术是目前机器视觉方面研究的热点之一,已经被广泛应用在智能辅助驾驶、智能机器人、行人行为识别等方面。通过近些年来的不懈研究,科研人员们提出了一系列的基于统
随着计算机和通信技术的不断发展,通过在一个公共分组网络中承载话音、数据和视频已经被越来越多的运营商和设备制造商所认同。在这样的业务驱动和网络融合的趋势下,诞生了下
本文为了使嵌入式系统能比较方便地进行互连通信,分析总结了一种实用的互连协议。此互连协议是一个分层协议,称之为ESCP(EmbeddedSystemCommunicationProtocol)。ESCP网络的主
图像是人类获取信息的重要内容,大量而清晰的图像对人们的日常生活、科学研究都有着十分重要的作用。但图像在形成、传输和记录的过程中都会受到诸多因素的影响,所以人类通过
随着计算机网络技术的发展,XML作为Web上一种新的数据发布语言,将成为Web上下一代“数据表达”和“数据交换”的统一标准。然而,时间是自然界无所不在的客观属性,所有信息都具有