论文部分内容阅读
电子信息的增长使得人们无法快速地找到自己真正感兴趣的内容。为了更好的组织和管理信息,研究者们引入了文本分类、特别是层次型文本分类技术。相对于层次型文本分类中的爆发式,自顶而下式层次分类能够更好的利用层次结构所提供的信息,然而此种层次分类法也存在“阻塞”这一缺点:如果一个文本在某个正确的祖先类别上被拒绝,则其永远不可能被分到正确的叶类别上。由于阻塞会导致层次分类系统分类精度的降低,故阻塞减少策略在近年来得到了广泛的关注和研究。本文在前人工作的基础上,着重对阈值降低类的阻塞减少策略进行了研究。本文首先对文本分类和层次文本分类的基本概念和知识进行了归纳;分析了阻塞对层次分类精度的影响;依据现有阻塞减少策略特点将其分为阈值降低类、累乘类和分类器组织类三种类型,并分析比较了三类方法各自的优缺点;讨论了阈值降低法的同平面型分类中SCut策略的区别与联系。在此基础上,本文从改变阈值降低法中使用的阈值策略,改用其它可调参数备选值较少的阈值策略出发,提出了基于柱状搜索的阻塞减少策略,实验表明本方法在减少阻塞、增大叶类别查全率的同时,仍然能够保持较高的查准率,而且整个系统的F1M测度也比较高;考虑到其它分类器阈值确定后分类器Ci的阈值变化只影响其工作域类别分类效果的性质,提出了基于预测的阻塞减少策略,实验表明本方法能够减少阻塞、增大叶类别查全率,提高整个系统的F1M测度,但同时查准率有少许下降;最后在借鉴平面型分类PCut策略的基础上,通过利用线性分类器输出得分分布的特点,提出了基于概率密度估计的阻塞减少策略,实验表明本方法虽能够很好的减少阻塞、增大叶类别查全率,但由于查准率过低导致整个系统F1M测度的下降。在对三种策略进行详细说明的基础上,我们使用Reuters21578文本集对标准层次分类法和阈值降低类方法进行了对比实验,并结合实验数据对基于概率密度估计的阻塞减少策略的效果进行了探讨和分析。最后我们使用S-test标准衡量了各种方法对标准层次分类法的改良程度,结果表明基于预测的阻塞减少策略在同阈值降低法近似的计算耗费下,为层次结构中各个内部分类器设置了最为合理的阈值,在减少阻塞的同时,能够提高较多叶类别的分类效果,因此我们认为该策略减少阻塞提高分类效果的作用最显着。