论文部分内容阅读
Web日新月异的发展已经深刻地改变了人们获取信息和知识的方式。Web信息资源的极大丰富和有限的信息提取方式之间的矛盾也日益突出。以浏览和关键字搜索为主要信息获取手段的Web用户经常迷失在信息的海洋中。为了解决这个信息过载的问题,研究人员希望借助Wrapper技术从多种结构的Web文档中提取出易于处理的信息,从而扩大Web信息提取的手段。本文研究并开发了一个规则自动生成的Web包装器-RAW,能自动提取网页内的规整信息。
本文研究的重点是Wrapper规则的表示、自动生成与使用,取得的主要成果如下:1.Wrapper规则的表示:我们提出了一套完整的Wrapper规则表示方案,能用于多信息块Web文档的信息提取。RAW中的Wrapper规则被表示为一棵规则块树。规则块树中每个节点对应一个有用信息块的规则块。规则块包含对应信息块的信息提取路径和信息匹配模式。这种Wrapper规则的表示方案可以适应不同粒度的信息提取,包括信息块,信息条和信息域的提取。
2.信息匹配模式的自动生成:我们引入多序列对齐(MSA)和多树对齐(MTA)的思想自动生成信息匹配模式;提出了“Serialization+R.MSA”算法和“MTAbasedonR.MSA”算法,它们分别用来生成一维序列形式的信息匹配模式和树状结构的信息匹配模式。
3.规则块的构造:除了生成信息匹配模式外,我们又提出了信息域识别算法。信息域识别算法是基于语法层次的启发式规则的,大多数情况下可以获得满意的信息域提取结果。信息提取路径的生成算法则是从HTML文档树(HDT)和信息块树(IBT)中归纳出信息提取路径。识别出信息域的信息匹配模板加上信息提取路径可以构造出对应某一信息块的规则块。
4.规则块树的生成和优化:规则块树生成算法保留了信息块之间的结构关系,将规则块节点组织成树状结构,被称为全局规则块树。我们提出了一系列基于启发式规则的优化方法能将全局规则块树演化为更为精炼的规则块树。优化后的规则块树自动保留了大多数用户关心的内容规则块和限定信息提取范围的边界规则块。
5.基于规则块树的自动信息提取:我们开发了一个自动信息提取器,提出了两种基于不同信息匹配模式的信息条匹配算法,允许信息条的模糊匹配。信息条匹配算法同时包含了信息域的提取。为了实现页面自动提取,我们提出了两种自动提取策略:精确提取策略和模糊提取策略,这两种策略在一定条件下可相互迁移。
和已有的Wrapper系统相比,RAW有四个特点:1.处理页面结构的通用性;2.提取结果的多样性,3.Wrapper规则的自动生成,4.信息抽取的智能化。实验表明RAW是一个真正意义上的全自动Wrapper,不仅可以做到Wrapper规则的自动生成,也可以实现不同粒度的信息自动提取。本文的研究成果可以集成在更高级的Web信息提取系统中,例如元搜索引擎,信息agent等。