论文部分内容阅读
Web信息抽取继承了传统信息抽取技术研究的成果,其核心是将分散在Internet上的半结构化的,隐含的信息点抽取出来,并以更为结构化,语义更为清晰的形式表示,为用户在Web中查询数据,应用程序直接利用Web中的数据提供便利。然而信息抽取中对页面清洗的预处理技术以及网页信息抽取模板技术的研究还存在着很多改进的地方。
现在的Web页面多数是以HTML的形式表现,而HTML语言描述的Web页面在信息抽取时存在一定的困难,利用DOM树的结构特点来进行信息抽取可以大大提高抽取的效率和准确率。本文通过对已有Web页面清洗技术的研究与分析,提出基于DOM树结构的网页过滤器方法。较好的解决了以前面向特定领域,特定网站或者针对格式不能完全自动抽取信息的问题。基于DOM树结构的网页过滤器方法是面向内容的信息抽取预处理方法,抽取的结果是主体内容或者兴趣区域。
针对DOM树的结构和当前Web页面的特点,提出三种基于DOM树结构的过滤器算法来实现对不同类型网页的信息抽取。利用这些过滤器可以过滤掉页面中凌乱无用的广告,与抽取主题无关的链接,以及页面中存在的空表格。而且用户可以根据自己的需求按照一定的顺序叠加地对Web页面进行过滤处理,得到只包含主体内容的网页,为接下来的抽取工作带来极大的便利。
信息抽取系统中抽取模板的获取方法是信息抽取的核心内容,本文提出基于结构相似的信息抽取模板自动获得方法,提出树模板,森林模板以及最大树模板的概念。利用网页的结构相似这一特点完成网页的模板抽取工作,并详细给出树模板,森林模板以及最大树模板的归纳方法。研究基于语义相似信息抽取模板自动获取方法,基于语义相似信息抽取模板自动获取方法充分考虑到模板中实体和关键词在相似度计算中的作用,将关键词分为一级关键词和二级关键词使得模板相似度计算更为准确,从而获得较高的模板正确率。另外对模板频次进行过滤,对提高模板的正确率也起到一定的作用。
基于前面提出的网页过滤器方法以及抽取模板获取方法,论文在最后提出一个基于DOM的Web信息抽取系统,提出系统的目标,基本思路,总体框架,对系统中涉及的知识库和数据库做了说明。并且对信息抽取模块的设计作了阐述,重点描述了信息抽取模块的实现,对系统的应用作了举例介绍。