基于极限学习机的XML文档分类的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:forcet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML文档作为一种半结构化数据格式,在数字化信息时代扮演了重要的角色。XML文档天然的支持自定义结构化的信息表达,已经在金融、生物医学等领域被广泛的应用。如何对XML进行有效的管理是当前比较热门的研究方向之一。本文针对XML文档的分类问题进行了深入的研究和讨论,并设计一套XML文档的分类方案。本文首先针对XML文档表达模型设计了分布结构向量模型DSVM (Distributed Structured Vector Model),该模型改善了传统的向量空间模型VSM (Vector Space Model)中计算TFIDF值时的缺陷,充分考虑了文档的类别分布信息,并对XML文档的结构信息进行了优化,使得DSVM模型能够同时具有较高的XML文档的语义信息和结构信息的表达能力。其次,本文设计了基于投票机制的极限学习机优化算法v-ELM (voting-ELM),利用OAO (One-against-one)的思想,将一个多分问题降解为多个二分问题,其中每两个类别形成一个二分分类器,专门用于训练这两类的训练文档。但是这种设计的分类器会产生投票结果上的问题。本文针对相同最大得票数这一情况,设计了针对相同最大得票数的重投票算法REV (Revoting of Equal Votes)和针对相同最大得票数的基于概率的重投票算法p-REV (Probability Based Revoting of Equal Votes)。这两个后处理方法分别使用常规和基于概率的重投票算法对分类结果重新进行决策。本文还针对混淆类问题设计了针对混淆类的重投票算法RCC (Revoting of Confusing Classes),对投票结果属于混淆类的结果进行重新决策,以进一步提高分类性能。从本文设计的一系列实验的结果可以看出,本文提出的DSVM模型在XML文档表达能力方面有了较大的提升,采用p-REV和RCC后处理方法的v-ELM算法虽然相比ELM算法牺牲了一定的训练时问,但仍旧远远优于传统后传神经网络,并且在分类的准确率等方面的性能超过了ELM、支持向量机。整体分类框架取得了令人满意的分类性能。
其他文献