Web文档中信息的获取与表示研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:xiaochouya87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文所研究的课题是国家科技部“十五”科技攻关项目“课件制作与转换工具”项目的一部分。本论文的主要工作为:研究一个能够从Web文档中抽取出信息的算法;分析HTML语言的特点,以确定信息在Web文档中的表现形式;参考LOM(Learning Object Metadata)模型,定义出一套用XML描述的、能够简洁的描述Web文档的模型;以及充分利用从Web文档中抽取出来的信息,把原来的Web文档转换成符合我们提出的模型的XML文档。本论文首先简要的说明了一下描述Web文档所采用的HTML的缺点,进而阐述了把Web文档转化为XML格式的重要性,然后概述了一下本论文所研究的课题的研究意义。论文的主体部分是研究如何从Web文档中获取信息并把他们用XML描述出来,并且做到尽量的不失真。本论文分析了几种传统的从Web文档中获取信息的方法的不足。本论文所阐述的获取方法是通过解析Web文档中HTML的标记来获取文档中的描述信息和结构信息。我们对文档中的信息先进行分类,把文档的信息分为四类,分别为文本信息、图象信息、动画信息和流媒体信息。对不同的文档信息我们采用了不同的处理方法,从而使得解析更具有针对性。对几乎所有的HTML的标签都进行了处理,使得解析更加的完备。如何用XML来表示我们获取出来的文档信息,使用什么样的格式来对获取出来的信息进行描述,这就是制定一个描述Web文档的XML标准模型(DTD)的问题。这是本文的重点。本文先定义了Web文档的数学模型,分别对Web文档中的实体、属性、关系、窗体、事件和响应等概念进行了说明,把Web文档看成一个实体的集合。然后本文阐述了Web文档的描述模型。分别对Web文档的元数据、组织结构、媒体资源、页面资源、窗体资源和窗体之间的关系进行了定义。这样我们就对一个Web文档在逻辑和物理上分别进行了定义。在这个模型中,Web文档中不同元素之间的位置信息被提取出来并保留下来,从而使得转换过后的文档和原文档在结构方面保持了一致性,保证了文档结构的不失真。最后开发了基于上述模型的软件,做到了实践和理论相结合。本论文所提出的模型在国家科技部“十五”科技攻关项目“课件制作与转换工具”项目中得到了直接的体现。
其他文献
随着Internet应用的广泛深入,计算机系统的安全问题日益引起人们的高度重视.操作系统是连接计算机硬件与上层软件及用户的桥梁,它的安全性是至关重要的.中国的政府、国防、金
该文参照有关密码体制和算法安全的基本理论,结合对水印的研究,开创性地得出了水印安全的基本内涵,并依此确立了该文的基本研究目标:对鲁棒水印,它们在体制上应该尽量不分发
为了实现企业的高效运营,在电子技术飞快发展的今天,利用信息技术,应用先进的计算机管理信息系统成为企业在激烈的竞争中发展和成功的必要条件.计算机网络技术的飞速发展,为
Client/Server结构是近几年非常流行的一种分布式计算模式,它的优势在于广泛地采用了网络技术,将系统中的各部分任务分配给网络中担任不同角色的计算机。然而在分布式环境下,类似
本课题目标是完成一套基于Linux操作系统的透明代理型防火墙软件,为在内部网的主机提供安全保护。透明代理是指内网受保护主机需要访问外部网络时,不需要做任何设置,完全意识不
本文使用面向对象的方法对并行PC系统结构的总体框架,数据交换网络以及分布式独立I/O结构进行设计,将传统的CPU及外部设备封装为通信端对象(CTO),将总线和交换网络封装为通信载体
功能相近的基因其表达模式相似,通过发现相似的表达模式可以预测未知基因的功能.数据挖掘中的聚类算法是按照数据的相似性进行划分,实现物以类聚的思想.该文采用聚类技术对基