基于多特征的HTML网页内容提取的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:dapao123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页内往往包含丰富而不同的内容,可以分为主题相关内容和主题不相关内容,识别出主题相关内容应用于网页检索,分类等,可以很大程度上节约空间以及提高这些应用的性能。此方面的研究已经有很多,也取得了很大的成果,其中研究较多和应用较广的是利用分块思想:首先将网页看作是由多个分离的聚集块组成,然后识别并取得需要的主题相关内容,即主题信息块。识别并提取网页主题相关内容的这一过程称为网页内容提取。网页内容提取对Web中的Hub型网页和主题型网页有不同的含义,对前者是找到该网页中非噪音内容的主要链接;对后者是发现描述网页主题内容的文本以及相关链接。本文的研究主要着眼于以下几个方面:首先,本文研究介绍了网页的类型划分以及分析了几种较为有效的划分网页类型的算法,并在此基础上提出了一种改进的网页类型划分的方法。这种改进的算法分为两个阶段。首先利用VIPS算法将网页划分为一个个的信息块,然后分别判断每一块的类型,并根据这些信息块中是否存在一个满足要求的主题型信息块来判断网页的类型。实验结果表明该方法能准确的划分出网页的类型,正确率达到98.6%。其次,本文总结了以往网页内容提取的各种方法,在此基础上,提出了一种新的网页内容提取算法,该算法在网页分块的基础上,分析每一块的特征,得到了主题信息块的多个特征。并利用概率论对这些特征进行量化,得到每个特征与信息块为主题内容的一个对应的概率关系,最后综合信息块的所有特征计算得到这个信息块是主题内容的总的概率,通过将这个概率与阈值的比较来判断信息块的性质。通过实验可以明显地看到新算法有效地提取了网页的主题内容,并优于其它同类算法。最后,本文给出了两个具体的网页内容提取的应用:Hidden Web分类和Web检索。在Hidden Web分类中,通过应用本文提出的新的网页内容提取算法得到Hidden Web的文本描述信息,并将其作为一个分类影响因素,从而明显的提高了分类的效果。在Web检索中,本文用新的网页内容提取算法提取网页主题内容,对实验集建立索引,进行检索,并与同类方法进行比较,实验结果证明新方法很大程度的提高了检索的准确率,查全率等指标,而且明显优于同类算法。由于网页分块的应用和推广,本文详细介绍了两种有效的网页分块方法,并在实验中进行了比较,本文提出的新算法依赖于网页分块的效果,因此进一步提高网页分块的准确性,合理性,以及分块后得到信息块的更多属性,都是提高算法性能的有效途径。
其他文献
视频运动目标分析是计算机视觉领域的一个核心问题,在军事、视频监控、等许多方面有着广泛的应用前景。本文主要针对视频运动目标分析应用于智能交通的场景,重点研究了基于注
学位
微粒群优化算法(PSO)是由Kennedy和Eberhart于1995年提出的一种基于迭代的优化算法,系统初始化为一组随机解,通过某种方式迭代寻找全局最优解。该算法与遗传算法(GA)相比,简
随着Internet的日益普及和电子商务的蓬勃发展,基于电子商务的业务也面临着越来越激烈的竞争。由于电子商务站点可为数据挖掘提供极为丰富的数据源,因而如何运用数据挖掘技术
学位
图形是一种描述性很强的数据结构。通过加以标记的顶点和边,图形既可以深入描述一组实体间的关系,也可以直观地描述这些关系间的属性。在复杂结构数据建模方面,如化合物分子结构
学位
瞬变电磁法作为一种重要的地球物理探测方法,由于它在时间和空间上的可分性,使得这种方法简单易行,信息丰富,精度较高,低成本,见效快,从而在矿藏勘探、钻井和海洋勘探等领域
学位
教育资源库的建设及其共享是远程教育的重要研究方向。高效的教学资源管理系统能提高教学资源的使用效率,从而有效促进教学活动的开展。其中以网络课件资源为代表的学习资源