基于自扩展的信息抽取方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:xys0709
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、事件等信息,并对这些信息进行结构化存储和管理的过程。目前大多数的信息抽取系统采用的是模式匹配的方法,且通常通过手工标注语料库并结合机器学习方法自动获取模式。然而,这种方法是领域相关的,当任务和领域发生变化时,需要重新标注语料并进行训练,可移植性较差。 针对手工标注语料库的方法费时费力、可移植性差的问题,本文提出了一种半监督的机器学习方法——基于自扩展的信息抽取方法,用于从未标注领域语料库中抽取领域术语。本文主要内容包括:(1)基于页面分段的信息块定位。将页面解析成DOM树,通过启发式规则分析DOM树节点所对应文本的自然语言特征,定位其中可能包含目标信息的自由文本段落。(2)基于自扩展的信息抽取。由人工提供少量种子术语,结合未标注的自由文本语料库,通过浅层句法解析自动发现模式,并用模式抽取术语,再通过新的术语发现新的模式,不断循环迭代,直至没有新的模式产生或满足迭代终止条件。 本文将基于自扩展的信息抽取方法应用到“电信研发平台”项目中,用于从美国36所学校的研究员主页中抽取研究兴趣。实验证明该方法具有较高的准确率和召回率,能成功抽取研究员的研究兴趣,是一种可行的信息抽取方法。
其他文献
入侵检测作为一种主动的安全防护手段,为主机和网络提供了动态的安全保障。它不仅检测来自外部的入侵行为,同时也对内部的未授权活动进行监督。利用网络协议的高度规则性,采
由驾驶员疲劳引起的车祸在机动车事故中占有很大比例,所以当驾驶员疲劳时给予警告,可以有效的减少交通事故的发生。驾驶员在车辆行驶过程中是否疲劳,可以由眼睛的状态反映出
学位
随着国际互联网飞速发展,各种电子文本数据的数量激增,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统科学迫切需要解决的重要问题。近十年来,作为解决这些问
学位
Linux操作系统优异的可靠性、良好的可裁减性、广泛的技术支持,受到了技术界的推崇和赞许,并在许多产品中得到了大量地使用。现在它已经支持几乎所有主流的32位CPU,新的2.6版内核
随着计算机技术与网络技术的普及与广泛应用,工作流技术得到了前所未有的重视和发展。工作流管理系统是实现计算机辅助协同工作的工具,能实现工作流程的全部或部分自动管理功
近年来,随着因特网的普及,电子商务在我国迅速发展起来。C2C作为电子商务的一种重要模式,在我国有着更为强劲的发展势头。但是,网上交易的信任问题已经成为阻碍电子商务发展的瓶
随着网络应用的飞速发展,为保证网络的可靠性,多数园区网采用多重ISP(Internet Service Provider)链路接入因特网。这些园区网中有着大量的客户群,网络拓扑结构错综复杂。在当今
互联网的高速发展使得现有的互联网体系架构已经不能满足人们日益增长的多样化需求,为此相关学者将虚拟化技术应用到网络体系架构中,通过网络虚拟化支持多网络体制并存来解决