论文部分内容阅读
网页信息抽取是指从网页中(半)自动获取用户感兴趣的信息,其在信息检索、舆情监测等应用中非常广泛。然而现有的研究只注重精确度、召回率等传统指标,忽略了分析各类特征在抽取中的贡献。而实际应用中由于缺乏统一的特征评价机制,对抽取工具的开发没有理论指导、对特征的选择因人而异也导致了开发过程比较混乱。因此,本论文提出了在网页信息抽取中进行特征选择和评价的问题并尝试解决。
首先,本文提出了基于CRF模型的特征选择算法。尽管已有的特征选择算法研究尝试结合了很多分类模型(如神经网络、SVM、决策树等),但很少有结合CRF的。然而CRF作为一个判别式图模型,其良好的分类性能和强大的建模能力正是对网页信息抽取建模所必需的。尤其是CRF能够直接对分类变量之间任意的依赖关系建模,这个优点特别适合网页信息抽取。因为实际应用往往要求同时抽取好几类信息,而这些信息又往往相互关联,CRF模型可以直接评价描述这些关联信息的特征的有效性,这是很多分类模型无法做到的(如神经网络、SVM、决策树等)。用CRF模型对网页DOM树进行建模也显得非常直观、自然。此外CRF还具有很多理论上的优势,如目标函数的全局收敛性、参数直接反映特征的重要性等等。由于CRF对网页信息抽取建模的种种优势,我们提出了基于CRF模型的特征选择算法,该算法采用后向搜索策略,在每一轮迭代中训练CRF模型并根据模型参数评估特征的好坏,并去掉最差的特征。该算法还提供参数方便用户调节特征选择的粒度以及计算量的大小。
接着,本文探索了各类特征在网页信息抽取中的贡献。在新闻网页和博客网页中抽取标题、正文这两个典型应用中,我们利用基于CRF模型的特征选择算法对各类网页特征的贡献进行了评价。我们一共引入了1200个特征,这些特征大部分来源于网页的各种表现形式:HTML源代码(如文本在HTML源代码中前后的标签)、DOM树(如文本在DOM树的位置、父节点的类型等)和最终渲染图像(如字体、背景色、长度、高度等),此外还有启发式信息构成的特征(如是否包含某些关键词)和依赖性特征(如抽取目标在网页中出现的先后顺序)。通过对这些特征的统一评价,我们总结了不同特征在新闻语料和博客语料中为抽取所做贡献的差异,并分析了原因。我们还将自己的算法与baseline方法做了比较,证明了我们的算法的优越性。
最后,本文开发了一个特征选择系统,为实际的工程应用做贡献。我们在基于CRF模型的特征选择算法的基础上,进一步开发出网页信息抽取的通用特征选择系统。我们利用Firefox插件技术,解决了网页动态解析和有效特征抽取的问题,并构建了灵活方便的使用界面供用户针对具体的抽取应用进行特征评价和选择。该系统还提供自动生成抽取工具的功能,可以减轻抽取工具开发的工作量,也可以为开发高质量抽取工具做参考。