基于语义的主题爬行方向研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:qdchengr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息以指数级别增长,目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。根据Forrester Research的统计资料,目前全世界数字信息量每年以数量级1018。字节的速度剧增。在如此类型繁多更新速度之快的形势下,Web数据挖掘已经成为现在人们信息获取的主要方式,搜索引擎成为人们获取信息的重要工具。但是现在通用搜索引擎抓取信息的速度远远落后于真实产生的网页。著名的Web搜索引擎Google索引的网页数量目前已经达到80亿,然而,这个数字据估计只占网页总量92PT(1PT=106GB)的1/500,并且还在以每天60TB的速度增长。鉴于此,主题搜索成为研究的热点。主题搜索通过只抓取互联网上与主题相关的页面来满足用户查询的需求,它具有花费时间少,所需存储空间小,能够满足用户个性化需求等优势。其中,爬行策略的研究是主题搜索的焦点,作者在调研了主题搜索的研究现状后,发现大多数文献通过分析要爬取页面的父页面所在的层次来预测待爬行URLs的得分,这种策略存在两个问题,一是没有计算语义相似度,不能反映和查询主题的相关度;二是将一个网页内的所有待爬行URLs一样看待,没有考虑它们在网页中所处的段落主题以及它的上下文。为了解决以上问题,本文提出了基于语义的爬行策略。包括两个部分,一是通过利用数学工具形式概念分析,提出了概念相似背景图,通过计算概念之间的语义相似度,能够寻找与用户主题语义关联度紧密的概念,从而决定爬虫的爬行顺序;二是将Web网页解析成Dom-Tree结构,结合文本语义相似度和网页层次结构对网页中不同段落的URLs赋予不同的预测得分。本文的主要贡献如下:(1)提出了基于形式概念分析的概念相似背景图,通过计算背景图中概念和核心概念的相似度来预测待爬行URLs的得分。算法的基本思想是利用爬行回来的网页构建形式背景,生成概念格,在概念格中计算概念的相似程度来构建概念相似背景图。和传统背景图的主要区别在于,不只是通过URLs之间的链接关系进行分层,而且利用概念之间的语义相似程度进行层次划分,通过待爬行URLs所在的层次进行得分预测,最终决定爬行顺序。(2)提出了基于编辑距离和向量空间模型相结合的相似度计算方法,传统的相似度计算方法将段落中的词条看成相互独立的,没有考虑词条在位置上的依赖关系,同样的几个词条位置不同表达的意思可能完全不同。算法思想是结合传统的向量空间模型和词条之间的编辑距离来解决自然语言中文本段落之间的相似程度,两种方法的结合可以扬长避短,达到更好的效果。(3)提出了使用Web网页的内部层次结构来计算待爬行URLs预测得分。一个Web网页中可能存在多个主题,结合元数据抽取的思想,将Web网页进行分层,使得每个层次的主题单一化,根据层次结构,将不同主题的层次段落联系起来。文章中将Web网页解析成为其对应的Dom-Tree结构,通过研究归纳层次结构的内部特性,并结合本文提出的相似度计算方法,将网页中的不同段落联系起来,最后根据URLs所在的段落来计算其预测得分。通过实验和其它几种爬行策略进行了对比,将结果进行准确率分析,表明本文提出的策略模型优于其它几种爬行策略,说明了本文算法的优越性。
其他文献
本文研究了基于高速采集的电机参数分析测试系统。系统包括数据采集和电机故障诊断两部分,以鼠笼式中小型三相异步电动机为数据信号源,采用数字信号处理器控制ADS8364转换器对电动机参数进行高速采集,进而对采集到的各项信号进行分析处理,诊断异步电动机故障,文中对涉及到的异步电动机故障诊断算法以及各种故障诊断方法做了详细的分析说明。系统将TMS320F2812作为数据处理与控制单元,缩短指令周期,提高了数
随着互联网技术的发展,基于Web服务的应用已经成为互联网发展的重要方面之一,目前很多与互联网相关的标准化组织已经对Web服务进行了大量的理论研究,IT企业已经开发出了部分W
报表作为一个数据分析及呈现工具,在金融领域应用范围最广。随着经济的发展,金融界对报表的生成速度以及精确度也有了越来越高的要求。信息技术的进步使得这一目标的实现成为
近年来,数据业务的飞速发展为国内增值业务的增长带来了巨大的推动与活力,短信业务在国内市场的成功与成熟也刺激着新型数据业务的涌现。同时,用户对业务功能的实用性需求也
视频图像序列中运动目标的检测与跟踪是实现智能视频监控系统的关键技术,也是计算机视觉方向的研究热点。本文主要的研究工作及贡献有两个方面:(1)在运动目标检测与分割方面,
随着多媒体通讯技术的不断发展,人们对语音通讯质量的要求越来越高,基于Internet的一对一的语音通讯已经不能满足用户的需求。而目前存在的多人语音通讯都存在延时大,音质差
以大型企业应用系统、云计算等为代表的大规模复杂系统日益广泛,性能调优、性能管理和能力规划成为这类系统部署运行过程中面临的重要挑战。论文在实现TPC-App测试基准(事务
互联网是广大残疾人获取信息、就业、娱乐的主要途径,然而目前绝大多数网站在最初设计实现时只关注普通人的用户体验,忽视了许多无障碍设计细节,使得残疾人群在访问时困难重重。
随着现代社会工业化和信息化的迅猛发展,条码技术的应用越来越广泛,对其防伪性的要求也越来越高。PDF417条码是目前使用最为广泛的条码技术,数字水印技术是一种可以有效提高
在研究网络拓扑结构时,运用图论来构建模型是常见的方法。而路径嵌入和泛圈性是研究网络拓扑结构容错性时不可回避的内容,从而越来越受人们的关注。提高网络的容错性能够改善