论文部分内容阅读
互联网是世界上最丰富和最密集的信息来源,近年来随着网络信息爆炸式的增长,Web新闻网页信息已成为人们获取信息的主要渠道。如何在海量的信息网页中快速找到用户需要的网页就成为了信息处理领域的一个研究热点。本文主要是面向教育新闻网页,着重解决信息抽取系统对网页关键信息的抽取方法的问题,在此基础上,设计并实现了一个教育新闻网页信息抽取系统,帮助用户根据网页关键信息来方便、快捷的查找到所需的教育新闻。本文在对网页进行信息抽取前,利用网页结构特征对网页进行分块。首先,按照HTML语言中的<div>和<table>标签以及一些简单的启发式规则把网页分为不同的块;然后根据每一块的特点来把网页分为不同的区域,如导航区、超链接区、页脚区、非显示区、正文区等。把不包含网页关键信息的区域从网页中去除掉,剩下的就是我们所需的网页关键信息所在的块,也就是下一步信息抽取操作处理的对象。对网页的信息抽取方法模块,本文采用了两种方法:一种是基于启发式规则的方法,主要是通过对大量教育新闻网页的结构及信息所在标签的特征进行统计分析,总结出这些信息所在位置及标签的一般特点,把这些特点作为信息抽取的规则来对网页进行信息抽取,该方法对小范围内的新闻网页抽取精确度高、速度快,但是不具有很好的可扩展性;另一种方法是基于HMM的信息抽取方法,该方法具有很好的可扩展性,但是由于需要对样本进行标记和学习来建立信息抽取模型,所以抽取速度不及第一种方法。本文结合两种方法的优缺点,对HMM样本的标记采用了基于启发式规则的方法来标记,并对网页按照启发式规则进行预处理,然后再使用HMM来进行信息抽取。通过对大量教育新闻网页的测试实验,结果表明对网页预处理方法、网页分块方法、基于启发式规则的信息抽取方法和基于HMM的信息抽取方法都是可行的,信息抽取的精确度和效率能够满足我们的实际需求,是具有实际使用价值的。