网页信息抽取关键特征的选择与应用

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:packey80
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页信息抽取是指从网页中(半)自动获取用户感兴趣的信息,其在信息检索、舆情监测等应用中非常广泛。然而现有的研究只注重精确度、召回率等传统指标,忽略了分析各类特征在抽取中的贡献。而实际应用中由于缺乏统一的特征评价机制,对抽取工具的开发没有理论指导、对特征的选择因人而异也导致了开发过程比较混乱。因此,本论文提出了在网页信息抽取中进行特征选择和评价的问题并尝试解决。   首先,本文提出了基于CRF模型的特征选择算法。尽管已有的特征选择算法研究尝试结合了很多分类模型(如神经网络、SVM、决策树等),但很少有结合CRF的。然而CRF作为一个判别式图模型,其良好的分类性能和强大的建模能力正是对网页信息抽取建模所必需的。尤其是CRF能够直接对分类变量之间任意的依赖关系建模,这个优点特别适合网页信息抽取。因为实际应用往往要求同时抽取好几类信息,而这些信息又往往相互关联,CRF模型可以直接评价描述这些关联信息的特征的有效性,这是很多分类模型无法做到的(如神经网络、SVM、决策树等)。用CRF模型对网页DOM树进行建模也显得非常直观、自然。此外CRF还具有很多理论上的优势,如目标函数的全局收敛性、参数直接反映特征的重要性等等。由于CRF对网页信息抽取建模的种种优势,我们提出了基于CRF模型的特征选择算法,该算法采用后向搜索策略,在每一轮迭代中训练CRF模型并根据模型参数评估特征的好坏,并去掉最差的特征。该算法还提供参数方便用户调节特征选择的粒度以及计算量的大小。   接着,本文探索了各类特征在网页信息抽取中的贡献。在新闻网页和博客网页中抽取标题、正文这两个典型应用中,我们利用基于CRF模型的特征选择算法对各类网页特征的贡献进行了评价。我们一共引入了1200个特征,这些特征大部分来源于网页的各种表现形式:HTML源代码(如文本在HTML源代码中前后的标签)、DOM树(如文本在DOM树的位置、父节点的类型等)和最终渲染图像(如字体、背景色、长度、高度等),此外还有启发式信息构成的特征(如是否包含某些关键词)和依赖性特征(如抽取目标在网页中出现的先后顺序)。通过对这些特征的统一评价,我们总结了不同特征在新闻语料和博客语料中为抽取所做贡献的差异,并分析了原因。我们还将自己的算法与baseline方法做了比较,证明了我们的算法的优越性。   最后,本文开发了一个特征选择系统,为实际的工程应用做贡献。我们在基于CRF模型的特征选择算法的基础上,进一步开发出网页信息抽取的通用特征选择系统。我们利用Firefox插件技术,解决了网页动态解析和有效特征抽取的问题,并构建了灵活方便的使用界面供用户针对具体的抽取应用进行特征评价和选择。该系统还提供自动生成抽取工具的功能,可以减轻抽取工具开发的工作量,也可以为开发高质量抽取工具做参考。  
其他文献
本文源自国家高技术研究发展计划(863计划)专题课题(NO:2007AA12Z156,高空间分辨率影像目标自动识别)。   随着遥感平台及计算机技术的迅猛发展,高分辨率遥感影像的应用领
随着铁路建设的不断发展,铁路轨道安全问题越来越被人们重视,对铁路轨道数据的采集分析也越来越重要。本课题以铁路轨道数据采集系统的研制为主要内容,基于USB与多线程两种关
Web服务为多个自治域之间的分布式工作提供了通用平台。基于Web服务的分布式环境由于集成多应用环境工作方式对于Web服务的分配以及访问控制的安全,尤其是授权访问有特殊的需
学位
学位
近年来,随着以计算机科学技术和通讯技术为代表的信息科学技术的广泛而深入的应用,人类社会已经进入了“网络时代”,网络互连和资源共享在方便了人们的工作和生活的同时也造成了
数据挖掘是一种将原有的数据分析法与处理大规模数据的复杂算法相结合的技术。链接挖掘作为数据挖掘的一个分支,它的研究任务包括描述和预测模型,随着链接概念的提出,链接预
网格参数化指为网格模型表面建立与平面或球面等参数域的函数映射,从而建立原模型的顶点与参数域上顶点的对应关系。由于网格参数化为离散、无序的网格模型提供了一种有序的、
操作系统安全是计算机系统安全运行的基础,如何构建安全操作系统一直是安全研究领域的重要课题。安全体系结构是安全操作系统的核心结构,对安全操作系统的开发具有指导作用。本
随着IPTV业务的迅速发展和用户规模的扩大,IPTV作为一项重要的电信增值业务如何融入到下一代网(NGN),成为人们关注的焦点。IP多媒体子系统(IMS)是构建统一多媒体业务的通用平