基于分类语义的Web信息抽取机制的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:lzx6963817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网的出现给人类社会发展带来了前所未有的变革。目前WWW已经发展成为包含多种信息资源、站点遍布全球的巨大信息服务网络,成为世界上最丰富和最密集的信息来源。为使因特网用户在纷繁复杂的网络信息中找到所关心的信息,搜索引擎诞生并迅速发展。 然而高速增长的信息量和信息类别,使得用户很难准确快捷地从WWW上获取所需信息。目前,在大多数搜索引擎中基于关键词的搜索会返回包含该关键词的所有网页,而这些网页往往跨越多个领域,其中会有许多内容属于用户根本不感兴趣的范围。因此快速、准确的从庞杂的网络信息中找到用户关心的信息变得极为困难。在这样的背景下,本文将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题,进而将这种分类思想贯穿到整个搜索引擎中,以提高搜索引擎的效率。 为此本文在研究了搜索引擎技术要点的基础上,设计了一个基于分类语义的搜索引擎系统。在该系统中,本文提出基于分类语义的Web信息抽取机制的思想,将一种依据网站设计者意图来对网页进行自动分类的技术与Web信息抽取相结合,进而将信息检索的结果以分类的形式呈现给用户,使得用户对网络上的信息资源能够迅速而有效地判断。 本文对该系统进行了整体设计,同时对基于分类语义的Web信息抽取机制进行了深入研究,并对分类语义的抽取机制以及基于分类语义的搜索器C_Spider的实现作了详细阐述。
其他文献
随着信息技术高速发展,人类社会正进入信息社会,社会经济的发展对信息资源、信息技术和信息产业的依赖程度越来越大。在信息社会中,信息资源已成为比较各国技术力量和综合国力的
传统的软件技术体系本质是一种静态、封闭的结构框架,软件实体缺乏动态适应能力、缺乏自主性、难以根据应用需求进行动态协同,因此难以适应Internet开放、动态和多变环境的要求
该文的研究工作包括:从Web数据库的四个关键技术入手,详细分析研究了Web数据库系统的体系结构、Web与数据库的接口技术、Web数据库系统设计与OOAD(Obiect Oriented Analysis
基于Linux平台的应用软件开发已经成为计算机软件产业的新兴发展趋势,总结并探索Linux平台下的应用软件架构思想与开发方法有着重要的应用价值。本文针对Linux平台下复杂软件
当前,互联网已发展成为全球性的信息网络,其规模和用户数量仅次于公用电话网(PSTN)和有线电视网。原有的传统电信网络与新一代网络还将并存相当长的时间。所以无论在技术上还
信息物理融合系统(Cyber-Physical Systems, CPS)是综合了计算、通信和控制技术于一体的新型智能复杂系统。CPS深度融合了信息资源与物理资源,将再一次掀起信息产业的浪潮。
随着科技的不断进步和计算机的普及,人机交互的方式也趋于多样化。从传统的键盘,图形用户界面,平板电脑的手写汉字到最近火热的语音识别,体感外设的手势。这些人机交互的方式
科学技术的飞速发展,使得社会分工越来越细,产品开发以及激烈的市场竞争要求企业从全球范围内来优化资源配置。因此产品的开发需要众多企业及相关科研院所等单位协作完成,企
近些年来,医学影像已经成为现代医疗诊断中重要的技术手段之一。借助计算机辅助诊断系统和医学图像分割方法,准确、快速提取感兴趣区域,提高了临床诊断的可靠性。计算机断层
随着电子技术,网络技术和通信技术的飞速发展,视频和音频技术已经进入了数字化阶段,国际标准化组织相继发布了MPEG-1、 MPEG-2、 MPEG-4等一系列视音频压缩标准,其中MPEG-4作为最