论文部分内容阅读
信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、事件等信息,并对这些信息进行结构化存储和管理的过程。目前大多数的信息抽取系统采用的是模式匹配的方法,且通常通过手工标注语料库并结合机器学习方法自动获取模式。然而,这种方法是领域相关的,当任务和领域发生变化时,需要重新标注语料并进行训练,可移植性较差。
针对手工标注语料库的方法费时费力、可移植性差的问题,本文提出了一种半监督的机器学习方法——基于自扩展的信息抽取方法,用于从未标注领域语料库中抽取领域术语。本文主要内容包括:(1)基于页面分段的信息块定位。将页面解析成DOM树,通过启发式规则分析DOM树节点所对应文本的自然语言特征,定位其中可能包含目标信息的自由文本段落。(2)基于自扩展的信息抽取。由人工提供少量种子术语,结合未标注的自由文本语料库,通过浅层句法解析自动发现模式,并用模式抽取术语,再通过新的术语发现新的模式,不断循环迭代,直至没有新的模式产生或满足迭代终止条件。
本文将基于自扩展的信息抽取方法应用到“电信研发平台”项目中,用于从美国36所学校的研究员主页中抽取研究兴趣。实验证明该方法具有较高的准确率和召回率,能成功抽取研究员的研究兴趣,是一种可行的信息抽取方法。