一种规则自动生成的Web包装器的研究和实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:fuconghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web日新月异的发展已经深刻地改变了人们获取信息和知识的方式。Web信息资源的极大丰富和有限的信息提取方式之间的矛盾也日益突出。以浏览和关键字搜索为主要信息获取手段的Web用户经常迷失在信息的海洋中。为了解决这个信息过载的问题,研究人员希望借助Wrapper技术从多种结构的Web文档中提取出易于处理的信息,从而扩大Web信息提取的手段。本文研究并开发了一个规则自动生成的Web包装器-RAW,能自动提取网页内的规整信息。 本文研究的重点是Wrapper规则的表示、自动生成与使用,取得的主要成果如下:1.Wrapper规则的表示:我们提出了一套完整的Wrapper规则表示方案,能用于多信息块Web文档的信息提取。RAW中的Wrapper规则被表示为一棵规则块树。规则块树中每个节点对应一个有用信息块的规则块。规则块包含对应信息块的信息提取路径和信息匹配模式。这种Wrapper规则的表示方案可以适应不同粒度的信息提取,包括信息块,信息条和信息域的提取。 2.信息匹配模式的自动生成:我们引入多序列对齐(MSA)和多树对齐(MTA)的思想自动生成信息匹配模式;提出了“Serialization+R.MSA”算法和“MTAbasedonR.MSA”算法,它们分别用来生成一维序列形式的信息匹配模式和树状结构的信息匹配模式。 3.规则块的构造:除了生成信息匹配模式外,我们又提出了信息域识别算法。信息域识别算法是基于语法层次的启发式规则的,大多数情况下可以获得满意的信息域提取结果。信息提取路径的生成算法则是从HTML文档树(HDT)和信息块树(IBT)中归纳出信息提取路径。识别出信息域的信息匹配模板加上信息提取路径可以构造出对应某一信息块的规则块。 4.规则块树的生成和优化:规则块树生成算法保留了信息块之间的结构关系,将规则块节点组织成树状结构,被称为全局规则块树。我们提出了一系列基于启发式规则的优化方法能将全局规则块树演化为更为精炼的规则块树。优化后的规则块树自动保留了大多数用户关心的内容规则块和限定信息提取范围的边界规则块。 5.基于规则块树的自动信息提取:我们开发了一个自动信息提取器,提出了两种基于不同信息匹配模式的信息条匹配算法,允许信息条的模糊匹配。信息条匹配算法同时包含了信息域的提取。为了实现页面自动提取,我们提出了两种自动提取策略:精确提取策略和模糊提取策略,这两种策略在一定条件下可相互迁移。 和已有的Wrapper系统相比,RAW有四个特点:1.处理页面结构的通用性;2.提取结果的多样性,3.Wrapper规则的自动生成,4.信息抽取的智能化。实验表明RAW是一个真正意义上的全自动Wrapper,不仅可以做到Wrapper规则的自动生成,也可以实现不同粒度的信息自动提取。本文的研究成果可以集成在更高级的Web信息提取系统中,例如元搜索引擎,信息agent等。
其他文献
该文首先对软件体系结构描述语言ADLS(Architecture Description Languages)和统一建模语言UML(Unified Modeling Language)的相关技术、方法进行了整理和总结.研究了各种ADL
目前国内外专家学者对Web日志挖掘作了大量的工作,其主要的研究在于挖掘效率的提高以及系统工具的集成等方面.其中,大部分的日志挖掘工具均具有以下特点:●针对关联规则的挖
该文先分析IP网络中所引入的QoS模型,讨论了基于约束的路由(包括QoS路由和策略性路由)与其它模型的关系,介绍了QoS路由问题的一些基本原理以及目前国内外对QoS路由问题的研究
近年来,网络安全已经逐渐成为计算机研究领域的新热点。防火墙技术作为其中的一个重要组成部分,在一系列产品实践的基础上迅速成熟起来。防火墙最基本的功能,就是根据用户制定的
VRML(Virtual Reality Modeling Language)是一项集虚拟现实(Virtual Reality)、Internet、多媒体于一身的新技术。本文介绍了利用VRML构建虚拟燕大校园和实现运动实体仿真的方法
该文对21点游戏的规则及胜负概率进行研究.基于概率论中关于频率的规律性原理,利用计算机的计算能力,统计出21点游戏中各种点况下各种操作的胜负概率,设计比较算法并完成JAVA
该文结合藏语信息处理的实际需要,开展了面向信息处理的书面藏语语法信息表述和应用研究.该文首次在藏语信息处理的相关理论、方法和应用方面作了积极的探索.其中,藏语语法信
嵌入式人脸识别门禁系统是将嵌入式软件、硬件系统与人脸识别技术相结合的应用系统,是新型的安全监控系统,主要应用于对安全级别要求较高的行业.该文对各种嵌入式软件以及硬
本文主要讨论网络传输过程中的安全问题,即安全通道的建立与维护。建立一个安全的网络通道,首先需要通讯方彼此确认身份,其次需要在传输过程中对传输的信息数据加密。网络传输分
该文分四章:第一章是综述部分.介绍了该文中将要用到的一些基本概念.同时简要阐述了一些关于完美对集、n-可扩图和n-临界图以及连通度理论的重要结论,局部弱连通度的定义也将