基于DOM结构的WEB信息抽取技术研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:zhangxing0828
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息抽取继承了传统信息抽取技术研究的成果,其核心是将分散在Internet上的半结构化的,隐含的信息点抽取出来,并以更为结构化,语义更为清晰的形式表示,为用户在Web中查询数据,应用程序直接利用Web中的数据提供便利。然而信息抽取中对页面清洗的预处理技术以及网页信息抽取模板技术的研究还存在着很多改进的地方。 现在的Web页面多数是以HTML的形式表现,而HTML语言描述的Web页面在信息抽取时存在一定的困难,利用DOM树的结构特点来进行信息抽取可以大大提高抽取的效率和准确率。本文通过对已有Web页面清洗技术的研究与分析,提出基于DOM树结构的网页过滤器方法。较好的解决了以前面向特定领域,特定网站或者针对格式不能完全自动抽取信息的问题。基于DOM树结构的网页过滤器方法是面向内容的信息抽取预处理方法,抽取的结果是主体内容或者兴趣区域。 针对DOM树的结构和当前Web页面的特点,提出三种基于DOM树结构的过滤器算法来实现对不同类型网页的信息抽取。利用这些过滤器可以过滤掉页面中凌乱无用的广告,与抽取主题无关的链接,以及页面中存在的空表格。而且用户可以根据自己的需求按照一定的顺序叠加地对Web页面进行过滤处理,得到只包含主体内容的网页,为接下来的抽取工作带来极大的便利。 信息抽取系统中抽取模板的获取方法是信息抽取的核心内容,本文提出基于结构相似的信息抽取模板自动获得方法,提出树模板,森林模板以及最大树模板的概念。利用网页的结构相似这一特点完成网页的模板抽取工作,并详细给出树模板,森林模板以及最大树模板的归纳方法。研究基于语义相似信息抽取模板自动获取方法,基于语义相似信息抽取模板自动获取方法充分考虑到模板中实体和关键词在相似度计算中的作用,将关键词分为一级关键词和二级关键词使得模板相似度计算更为准确,从而获得较高的模板正确率。另外对模板频次进行过滤,对提高模板的正确率也起到一定的作用。 基于前面提出的网页过滤器方法以及抽取模板获取方法,论文在最后提出一个基于DOM的Web信息抽取系统,提出系统的目标,基本思路,总体框架,对系统中涉及的知识库和数据库做了说明。并且对信息抽取模块的设计作了阐述,重点描述了信息抽取模块的实现,对系统的应用作了举例介绍。
其他文献
颜色是图像非常重要的视觉特征之一,利用颜色特征进行图像检索,一方面要解决图像中颜色特征的提取难题,另一方面要解决如何用数值来有效的表示图像在颜色上的相似程度。从图像理
漏洞关联性在网络安全评估系统中,占有非常重要的地位。通过网络攻击图,网络管理人员可以即时地了解当前网络的安全情况,并及时采取预防和补救措施。而在攻击图的绘制中,漏洞
随着芯片上可利用的晶体管资源的爆炸性增长和片上连线延迟的日益加大,片上多核处理器的设计不可阻挡地成为当今处理器设计的主流。而功耗的限制已经成为目前处理器设计的首要
电机驱动系统在工业生产中占据重要位置,是能源消耗大户。电机系统的耗电量占到我国工业用电的70~80%,由于电机技术水平落后、能效水平低,加上电机运行负载与额定负载不匹配、带故
随着Internet技术的快速发展和软件应用需求的持续增长,面向服务的计算逐渐成为了学术界和产业界关注的热点。面向服务的计算以“软件即服务”的理念为前提,期望以服务作为基
为了提高图像资源利用率,快速、有效地查询和检索数据库中的图像,基于内容的图像检索技术(CBIR)便应运而生。其方法是在检索图像时,对给定的图像自动提取其特征向量,并根据匹配原
现今世界很多国家都竞相发展红外视频技术。红外视频技术已经被广泛应用在交通管理、飞机导航、卫星探测等民用领域,同时在导弹制导等军事领域也得到了重要应用。目前红外视频
数据库系统已经成为现代人们进行信息管理最常用的手段。作为计算机科学技术中发展最快,应用最广泛的重要分支之一,数据库己成为计算机信息系统和计算机应用系统的重要技术基础
Web数据库是Web技术和数据库技术结合的产物,是一种全面面向Internet功能结构的数据库模型。随着Internet的发展,Web数据库的应用越来越多,用户对访问Web数据库的要求也越来越高
随着物联网技术的发展,基于EPCglobal系统的供应链信息识别与跟踪系统逐步被广泛使用。ONS信息服务作为EPCglobal系统的重要组成部分,ONS信息服务的实现是EPCglobal系统实现