论文部分内容阅读
随着Internet的迅猛发展,Web已经成为全球传播与共享科研、教育、商业和社会信息等最重要和最具潜力的巨大信息源。与传统的信息资源相比,Web上信息资源有着分布性、异构性、开放性、动态性和庞大性等特点,这些特点导致Web上数据的信息接口和组织形式各不相同、使得Web上的信息资源不能被有效的利用。因此出现了很多基于Web信息源的技术和应用,其中信息抽取技术是当前研究的一个热点。
信息抽取(Information Extraction,IE)的目标是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。把信息点从各种各样的文档中抽取出来,然后以统一的形式集成在一起,这是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较,能够对数据作自动化处理,从而实现用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。从大量的文档中抽取需要的特定事实是非常有用的。互联网上就存在着这么一个文档库,同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,其意义是非常重大的。
本文实现了一种基于Web的快速从HTML页面中抽取病毒信息的方法,该方法将抽取信息按对象关系模型进行重组存放在数据库中,以支持查询及各种应用。将信息抽取过程划分为两个阶段:学习阶段和抽取阶段,学习阶段主要是利用少量的。HTML样本页面,用户根据实际的需求和选定的 HTML 样本信息的具体情况定义模式信息,同时对样本页面进行适当的标记得到样本记录,系统根据样本页面和样本记录形成抽取的知识库,该知识库包含抽取信息的抽取规则和关联规则;抽取阶段是根据学习阶段定义的模式信息,建立数据库,同时根据知识库对与样本页面相近的HTML页面进行信息抽取,将抽取出来的信息以数据库的方式存储和管理。这样抽取出来的信息符合用户的要求并且具有结构,因此抽取阶段既是信息抽取的过程,同时又是信息重构的过程。同时在抽取阶段中分为两个部分:抽取部分和集成部分。
基于这种抽取方法的原型系统可直接应用于Web查询和搜索,也可用于其它应用的数据准备,抽取效果良好。