基于概念背景图的主题爬行策略研究

来源 :西华大学 | 被引量 : 0次 | 上传用户：w3244732447

【摘要】

：

近年来,随着Internet / Web技术的快速普及和迅猛发展,互联网上的网页每天都以指数级别增长,目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。在如此类型繁多更

【作者】

：

彭强强

【机构】

：

西华大学

【出处】

：

西华大学

【发表日期】

：

2010年期

【关键词】

：

搜索引擎主题爬虫概念背景图语义分析链接分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着Internet / Web技术的快速普及和迅猛发展,互联网上的网页每天都以指数级别增长,目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。在如此类型繁多更新速度之快的形势下,Web数据挖掘已经成为现在人们信息获取的主要方式,搜索引擎成为人们获取信息的重要工具。但是现在的通用搜索引擎采用穷尽的方式爬行互联网上的网页,这种通用搜索引擎抓取信息的速度远远落后于真实产生的网页。同时,互联网信息所具有的海量数据、复杂性、极强的动态性和用户的多态性等特点也给搜索引擎造成了相当的难度。因此,面向主题的智能检索系统应运而生并引起了研究者的极大重视。主题搜索引擎的爬行虫,称为主题爬行虫,主题爬行虫抓取互联网上与主题相关的页面来满足用户查询的需求,它具有花费时间少,所需存储空间小,能够满足用户个性化需求等优势。它自动识别主题信息,快速、有选择地遍历与主题相关的区域并下载网页,有效地避开与主题无关的区域,为面向主题的用户查询准备数据资源。但是对于Web自身复杂的结构和主题爬行虫的实时性,如何提高主题爬行虫的主题识别能力?如何在较短时间内下载更多与主题相关的网页?如何穿过与主题无关的网页到达与用户兴趣主题相关的网页?这些都是主题爬行策略需要解决的问题,也是目前主题搜索的研究焦点。本文对现有的几种主题爬行策略进行研究,发现现有的几种主题爬行策略对待爬行URLs的预测排序主要还是基于关键词的,对爬行预测还是停留在关键词层面上,没有做到语义预测的高度。本文是通过已检索的网页的内容和链接信息来预测主题爬行的爬行方向。引入形式概念分析,通过计算概念格中概念之间的语义相似度来进行预测,把主题爬行方向的预测提高到语义预测的层面。本文的主要贡献如下:(1)将概念格引用到语义相似度的计算中来,用已经爬行到的与主题相关的网页构建概念格,作为用户的主题背景信息,再将概念格映射到概念背景图中,通过计算网页与背景图中的概念的语义相似度来预测待爬行URLs优先级。(2)提出了一种概念背景图的构建方法,传统的背景图的构建方法有Diligenti在文章[14]中提出的链接背景图(LCG),是完全基于网页的链接关系的;ChingChiHsu等人在文章[15]中提出的相关背景图(RCG),是在网页之间的链接关系的基础上增加上一个相似度的计算。本文的方法是在概念格的基础上,由概念属性词之间的关系把概念格中的每一个概念映射到背景图中,形成概念背景图。(3)提出了一种基于语义分析和链接分析相结合的主题爬行策略。使用构建好的概念背景图,对网页进行语义相似度的计算,保证爬行回来的网页更加接近主题,结合网页的链接关系来指导爬行,使爬行虫能够选择正确的方向,快速的跳过与主题无关的区域,到达与主题相关的区域。(4)构建主题搜索系统,获取网络数据,通过主题相关文档数量、召回率、精确率,这几种评价指标来检验本文的搜索策略,并且与宽度优先的爬行策略和其它几种主流的爬行策略在相同的数据集下进行实验比较,得出了本文提出的策略是可行的。

其他文献

基于PXA270的ARM开发平台原理图设计——并在其上实现移动数字电视的接收

随着Internet技术的发展和后PC时代的到来，嵌入式系统成为当前IT产业的焦点之一，呈现出巨大的市场需求，嵌入式系统的应用领域和复杂程度正在日益发展，而数字电视的广泛应用将会在

学位

嵌入式技术移动数字电视接收功能PXA270处理器

关节特征约束的骨架提取算法及其应用研究

近十几年来,模型骨架抽取这一课题已成为国际上比较热门的研究方向,包括Siggraph在内的很多国际、国内的科研机构、学者对骨架抽取及应用进行了深入的研究,使得这一方向的算

学位

骨架抽取多分辨率Reeb图离散高斯曲率三维模型检索骨架变形

基于BMP图像的数字水印研究与分析

近年来，随着人们生活质量的提高，各种数码产品逐步走入平常百姓家庭，从而诞生了大量的数码照片、视频等数字媒体，然而对于这些数字媒体的安全性却毫无保证。数字水印作为一种信息

学位

数字水印版权保护空间域算法

基于地理本体的信息检索

随着信息技术的迅猛发展,网络成了人们获取信息的主要手段,它在给人们带来便利的同时,但也带来了困扰。网络的信息内容庞大,人们经常要耗费大量的时间去搜索有用信息。当人们

学位

本体地理本体模糊函数查询扩展

基于可信度的协同过滤推荐算法研究

互联网技术的普及,促使电子商务被越来越多的用户所接受。推荐系统可以与用户进行交互,模拟商店销售人员帮助用户完成购买过程,并能根据用户的兴趣对用户进行个性化的推荐,对

学位

协同过滤可信度兴趣度新颖度平均绝对偏差

车牌图像的分割与识别算法的研究

随着科学技术的发展,人们的生活越来越智能化和自动化,车辆也越来越多,这给高速公路收费,小区管理等增加了压力,而智能交通管理系统能改变这一现状,提高交通管理的效率,使之

学位

倾斜校正二值化字符分割字符识别BP神经网络

基于S3C2410X嵌入式核心板的设计与制作

随着电子计算机技术的发展,嵌入式系统应用越来越广泛。而ARM以其高性能低功耗的特点广泛应用于16／32位嵌入式微处理器。现在很多大学都开设了嵌入式系统课程,对于这种实践与

学位

嵌入式系统S3C2410X核心板设计实现

基于情态演算的UML形式化验证与OCL约束自动生成研究

从软件工程中软件生命周期的角度分析,软件架构是软件的核心结构与行为,因而软件架构的设计是软件设计的核心,也是随后进行代码开发的基础。因此软件架构设计的重要性不言而

学位

UML情态演算PrologOCL形式化验证自动生成

谱聚类在离群数据挖掘中的应用研究

随着数据库技术的不断发展和Internet的不段完善,人们利用信息技术得到数据和潜在知识的能力得到极大的提高,数据挖掘正是在这种时代背景下产生的,其实质是从存放在数据库,数

学位

离群数据挖掘谱聚类NJW

基于多属性决策的机会传感网络关键节点预测

机会传感网络是一种不需要源节点和目标节点之间存在完整链路,利用节点移动带来相遇机会实现通信的自组织网络,应用于野生动物追踪、森林环境监测以及智能交通等。机会传感网

学位

机会传感器网络关键节点阶段贡献度区域贡献度多属性决策

基于概念背景图的主题爬行策略研究

其他学术论文