大规模中文网页的自动分类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户：ke19881101

【摘要】

：

随着信息技术的飞速发展,人们从信息缺乏的时代过渡到信息极为丰富的数字化时代。在这个数字化的时代里,人们可以获得越来越多的数字化信息包括文本、数字、图形、图像、声音

【作者】

：

任函

【机构】

：

华中师范大学

【出处】

：

华中师范大学

【发表日期】

：

2006年期

【关键词】

：

网页自动分类网页内容提取文本自动分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的飞速发展,人们从信息缺乏的时代过渡到信息极为丰富的数字化时代。在这个数字化的时代里,人们可以获得越来越多的数字化信息包括文本、数字、图形、图像、声音甚至是视频。这些信息大都是半结构化或者是非结构化的数据,想从其中迅速有效地获得所需信息是非常困难的事情。为此目的,网页自动分类被研究者提出并进行了应用研究。研究网页分类具有重要意义,它可以大大缩短在线文档的整理时间,为信息检索提供方便,有利于实现在线文档的存档管理。本文的主要工作包括以下几个方面: 1.本文提出了一种网页噪音自动过滤和基于DOM树解析的网页内容提取方法“二元匹配法”。该方法根据Web页面的特征,从分析其结构的角度入手,去除网页中的Tag标签、广告、版权信息,并有效地剔除与网页主题无关的内容,保留网页正文及相关信息。 2.本文通过分析经典的TF/IDF公式存在的问题,并结合前人的研究,给出了“词-类权重”的权重计算方法,该方法将三个方面的因素考虑进来,即特征对某个类的重要性、在类中分布的平均性和对文本集的重要性,从而在衡量词对类别的重要性中达到平衡,提高了有用特征对于类的重要程度,起到了较好的类别区分作用。 3.本文分析了常用的Cosine相似度的不足之处,在此基础上,采用Jaccard系数的相似度公式,通过考虑文档的重叠程度,将大文档与小文档的重要性区分开来,使分类器适应网页分类。经过开放测试,本方法在进行大规模语料训练后可以使相关网页的平均分类准确率达到83%以上,比未使用本方法进行分类的效果有了明显提高,而且计算成本低,速度快,符合大规模中文网页自动分类的需要。该研究可应用于信息检索、信息过滤、文本自动分类、网页自动分类等应用领域。

其他文献

基于语义Web的知识发现方法研究

近年来Web以惊人的速度发展着,整个网络正在形成一个前所未有的超级信息数据库,如何处理这些海量信息成为了全新的课题。本体在Web上的应用可以有效地解决Web信息共享的语义

学位

知识发现语义Web本体分类

RoboCup中型组足球机器人视觉系统的研究与设计

作为自主移动机器人研究的一个新的分支，足球机器人的研究受到了越来越广泛的关注。机器人足球比赛的目的是通过提供一个标准的比赛平台来推动机器人相关技术的发展。足球机器

学位

足球机器人全向视觉颜色阈值标定彩色图像分割目标识别

人脸美学的统计特性以及自动化评价研究

对于人脸美丽的研究，古今中外都有很多的可以量化的标准，使我们有理由相信人脸的美丽程度与人脸的生物特征存在着一些可定量的关系，所以本文试图通过对人脸的几何特征、纹理特征

学位

人脸美学统计特性自动化评价支持向量回归技术

基于关系数据库的XML存储和查询的研究

可扩展的标记语言(Extensible Markup Language ,XML)的出现改变了Web的基本面貌。XML具有许多优点: XML具有半结构化、自描述性、灵活性、可扩展性等特点,实现了结构、内容

学位

XMLXML Schema关系数据库模式映射查询处理

多媒体数据的快速加密算法研究

随着计算机和网络技术的发展,多媒体已被广泛地运用到人们社会生活中的各个领域。同时,多媒体通信的安全问题也日益受到关注,而密码学是解决这一问题的首要技术。与文本数据

学位

多媒体信息安全加密MPEG-2编码四叉树

移动IPv6通信对端绑定更新安全研究

随着互联网规模的不断增长,作为IPv6重要组成部分的移动IPv6协议受到广泛欢迎。IPv6在制定之初就考虑到了要解决移动性问题,因此它的基本理论中就有许多是为解决移动问题而提

学位

移动IPv6绑定更新证书WPKIOMNET++

基于核方法的网络入侵检测系统

入侵检测技术是网络信息安全的核心技术之一,入侵检测本质上是一个模式识别问题。支持向量机是当前模式识别领域的研究热点之一,利用支持向量机进行建模,不仅可以解决推广能

学位

入侵检测支持向量机核主成分分析核独立成分分析

规则互连网络的系统级故障诊断研究

互连网络是实现多计算机系统中处理器之间相互通信的有效机制,系统的可靠性在很大程度上依赖于互连网络的可靠性,它是决定系统性能的重要因素之一。随着系统规模的扩大,系统

学位

多计算机系统互连网络悲观诊断顺序诊断诊断算法

磁盘阵列双控制器容错研究

磁盘阵列技术利用冗余的磁盘来解决磁盘的单点故障问题,然而构成磁盘阵列系统的各个硬件模块,如电源、风扇和控制器,也可能发生故障。由于控制器需要和主机通信,对其进行容错

学位

计算机结构磁盘阵列系统双控制器容错架构故障处理

基于QoS的Web服务发现研究

在互联网不断发展的过程中,Web服务技术已成为其中发展的一大热潮,随之而来的是越来越多功能性相似的Web服务出现在了用户面前,那么怎样从这些功能相近的服务中找出满足用户

学位

Web 服务QoS 需求信誉度权重HadoopQoS 本体

大规模中文网页的自动分类研究

与本文相关的学术论文