论文部分内容阅读
随着互联网的迅速发展,网络上的信息与日俱增,已成为人们获取信息的重要来源。但是,由于Web页面的无结构性、Web内容的多样性和Web页面的动态变化等原因,使人们很难准确的在Web上搜索到真正想要的信息。Web信息抽取技术为人们提供了更有力的信息获取工具,是解决目前Web页面存在的各种各样问题的一个有效途径。其主要的任务是将Web中各种不同格式表达的信息通过抽取技术转化为统一的信息表达方式。本文首先介绍了信息抽取的产生背景、技术内涵和基本应用,分析了信息抽取系统体系结构、关键技术以及分类和衡量指标。接着重点介绍了Ontology的基本知识,Ontology的构建以及Ontology的解析。在此基础上,本文提出了一种基于领域Ontology的Web信息抽取方法,该方法一方面利用领域Ontology里的概念、属性、层次结构等自动生成匹配模式,另一方面对Web页面进行预处理并对预处理后的文本进行语法分析,再和先前生成的抽取规则一起对预处理后的文档进行信息抽取,最后把抽取的结果以记录的形式输出到数据库以便查询。基于领域Ontology的信息抽取最大的优点是抽取对Web页面的结构没有依赖性。另外,利用Ontology来描述和表达信息抽取的知识库增强了抽取模板的语义表达能力,将信息抽取的重点放在特定的领域,可以大大提高信息抽取的准确率。在本文中,我们根据上述方法并结合实际情况,设计了一个基于计算机专业求职信Ontology(Computer job hunting letter ontology (CJHLO))的信息抽取系统,并编写代码实现了这个系统。我们详细介绍了该系统的总体框架,以及系统的各主要模块的设计等。本文通过解析Ontology得到的概念、属性、层次结构构建了Ontology模型树,并使预处理后的无结构文本按照Ontology模型树结构进行待抽取对象的信息抽取。最后介绍了实验结果并对结果进行了分析。