基于智能隧道的主题Web信息采集技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liulg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Web上海量的信息处于不断的变化中,通用搜索引擎己很难再为用户提供一个准确并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web,并试图服务于所有主题的查询请求。与通用搜索引擎不同,垂直搜索引擎在主题Web信息采集时,通过对网页的主题相关度进行预测和判断,避开了大量主题无关的区域。由于只采集主题相关的网页,垂直搜索引擎在查询的准确率和效率上都有显著的提高。垂直搜索引擎技术正成为越来越热门的课题,而主题Web信息采集技术是垂直搜索引擎的核心技术,该领域的研究具有较高的理论和实现价值。   本文在研究传统的主题Web信息采集技术的基础上,提出了一种新的智能隧道算法。该算法将快速在线Q(λ))学习算法引入普通隧道技术中,通过在线学习积累爬行过程中的经验,引导专业网络爬虫以最小的时空代价从主题相关度低的区域穿越到达主题相关度高的区域。实验表明,与普通隧道相比,智能隧道算法降低了时空复杂度,提高了专业网络爬虫的性能与运行效率。   本研究所做的主要工作包括:   ①介绍了垂直搜索引擎的基本原理和相关技术,并对垂直搜索引擎的系统框架进行了研究。   ②对主题Web信息采集所涉及到的核心技术包括专业网络爬虫、相关度计算、爬行策略等进行了研究。   ③在研究现有的隧道技术和快速在线Q(λ)学习算法基础上,提出了一个智能隧道模型,并在该模型基础上设计了一个智能隧道算法。该算法与普通隧道算法相比,有效地降低了时空复杂度,提高了专业网络爬虫的性能与运行效率。   ④研究了现有的Web信息采集相关开源项目,并在Heritrix框架的基础上定制开发,实现了基于智能隧道的主题Web信息采集原型系统。以“旅游景点”为主题,通过实验分析验证了基于智能隧道主题信息采集技术的有效性和准确性。
其他文献
随着计算机网络技术的不断发展,计算机网络在人们的日常生活中已经变得越来越普遍,而对网络的维护和管理也日益凸显其重要性。目前,网络管理已成为计算机网络的关键技术之一,
粗糙集理论是八十年代初由波兰学者Pawlak提出的一种处理不精确、不确定性问题的数学工县。由于其近年来在机器学习、模式识别、决策分析、过程控制、数据库知识发现、专家系
智能规划是近几年人工智能领域中的一个研究热点,由于在工业实践以及理论研究有着非常重要的地位,智能规划受到越来越多的学者关注。本文的研究是针对智能规划中一种不确定性规
差分方程是描述自然科学和社会科学中各种演化系统的一种强有力的数学工具,已被广泛应用于生物学、生态学、电子学、生理学、物理学、工程学和经济学等领域。另外,差分方程在算
随着计算机网络技术、计算机通信技术、分布式并行处理技术的发展,Agent以及多Agent系统(Multi Agent System,MAS)的研究已成为分布式人工智能(Distributed Artificial Intel
数据挖掘是一门新兴的交叉学科,涉及到数据库技术、机器学习、统计学、模式识别、神经网络、人工智能、数据可视化等多个领域。目前它已成为数据处理和分析研究中最活跃、最令
近年来,随着互联网技术的快速发展,个人或家庭接入互联网的带宽也越来越大,与之而来的是各种各样的新型互联网服务方式。视频直播服务也是其中之一并且已经成为互联网的主流
学位
从人工智能跨越到计算智能是计算机科学发展史上的一次重大变革。以进化算法和神经网络为核心的计算智能理论得到了长足的发展。最近十几年来,各种新的进化算法也纷纷被提出。
深度学习近年来在各方面都取得了突破性的进展,如语音识别、图像分类等。而卷积神经网络作为第一个成功训练的多层网络,更是被广泛应用。但是由于CNN的特殊计算模式,使得一般