基于自扩展的信息抽取方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户：xys0709

【摘要】

：

信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、事件等信息，并对这些信息进行结构化存储和管理的过程。目前大多数的信息抽取系统采用的是模式匹配的方法，且通

【作者】

：

张俊

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2009年期

【关键词】

：

Web信息抽取自扩展 DOM树模式匹配机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、事件等信息，并对这些信息进行结构化存储和管理的过程。目前大多数的信息抽取系统采用的是模式匹配的方法，且通常通过手工标注语料库并结合机器学习方法自动获取模式。然而，这种方法是领域相关的，当任务和领域发生变化时，需要重新标注语料并进行训练，可移植性较差。针对手工标注语料库的方法费时费力、可移植性差的问题，本文提出了一种半监督的机器学习方法——基于自扩展的信息抽取方法，用于从未标注领域语料库中抽取领域术语。本文主要内容包括：（1）基于页面分段的信息块定位。将页面解析成DOM树，通过启发式规则分析DOM树节点所对应文本的自然语言特征，定位其中可能包含目标信息的自由文本段落。（2）基于自扩展的信息抽取。由人工提供少量种子术语，结合未标注的自由文本语料库，通过浅层句法解析自动发现模式，并用模式抽取术语，再通过新的术语发现新的模式，不断循环迭代，直至没有新的模式产生或满足迭代终止条件。本文将基于自扩展的信息抽取方法应用到“电信研发平台”项目中，用于从美国36所学校的研究员主页中抽取研究兴趣。实验证明该方法具有较高的准确率和召回率，能成功抽取研究员的研究兴趣，是一种可行的信息抽取方法。

其他文献

基于模式匹配和协议分析的入侵检测系统研究

入侵检测作为一种主动的安全防护手段,为主机和网络提供了动态的安全保障。它不仅检测来自外部的入侵行为,同时也对内部的未授权活动进行监督。利用网络协议的高度规则性,采

学位

入侵检测模式匹配协议分析

基于眼睛检测与视线估计的驾驶员疲劳检测

由驾驶员疲劳引起的车祸在机动车事故中占有很大比例,所以当驾驶员疲劳时给予警告,可以有效的减少交通事故的发生。驾驶员在车辆行驶过程中是否疲劳,可以由眼睛的状态反映出

学位

主动安全疲劳检测虹膜检测视线估计动态贝叶斯网络

支持向量机算法的若干改进及其研究

学位

基于支持向量机与聚类算法的中文文本分类研究

随着国际互联网飞速发展,各种电子文本数据的数量激增,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统科学迫切需要解决的重要问题。近十年来,作为解决这些问

学位

支持向量机中文文本分类聚类削减

基于矛盾体分离的命题逻辑动态自动演绎推理求解系统研究

学位

基于ARM的嵌入式导航系统BSP的优化设计与实现

Linux操作系统优异的可靠性、良好的可裁减性、广泛的技术支持，受到了技术界的推崇和赞许，并在许多产品中得到了大量地使用。现在它已经支持几乎所有主流的32位CPU，新的2．6版内核

学位

嵌入式导航系统ARM处理器引导代码设计内核移植驱动程序框架

.NET框架下工作流管理系统的研究与应用

随着计算机技术与网络技术的普及与广泛应用,工作流技术得到了前所未有的重视和发展。工作流管理系统是实现计算机辅助协同工作的工具,能实现工作流程的全部或部分自动管理功

学位

Microsoft.NET三层结构工作流技术税务代理

C2C电子商务网站信誉评价模型研究

近年来，随着因特网的普及，电子商务在我国迅速发展起来。C2C作为电子商务的一种重要模式，在我国有着更为强劲的发展势头。但是，网上交易的信任问题已经成为阻碍电子商务发展的瓶

学位

电子商务C2C网站博弈论信誉评价模型网上信任

并行QoS路由预计算及链路负载问题研究

随着网络应用的飞速发展，为保证网络的可靠性，多数园区网采用多重ISP(Internet Service Provider)链路接入因特网。这些园区网中有着大量的客户群，网络拓扑结构错综复杂。在当今

学位

多链路网络服务质量多目标路由优化链路负载

软件虚拟化路由器数据平面隔离机制研究

互联网的高速发展使得现有的互联网体系架构已经不能满足人们日益增长的多样化需求,为此相关学者将虚拟化技术应用到网络体系架构中,通过网络虚拟化支持多网络体制并存来解决

学位

虚拟路由器流量隔离I/O优化流量感知令牌预分配

基于自扩展的信息抽取方法研究

与本文相关的学术论文