论文部分内容阅读
本论文所研究的课题是国家科技部“十五”科技攻关项目“课件制作与转换工具”项目的一部分。本论文的主要工作为:研究一个能够从Web文档中抽取出信息的算法;分析HTML语言的特点,以确定信息在Web文档中的表现形式;参考LOM(Learning Object Metadata)模型,定义出一套用XML描述的、能够简洁的描述Web文档的模型;以及充分利用从Web文档中抽取出来的信息,把原来的Web文档转换成符合我们提出的模型的XML文档。本论文首先简要的说明了一下描述Web文档所采用的HTML的缺点,进而阐述了把Web文档转化为XML格式的重要性,然后概述了一下本论文所研究的课题的研究意义。论文的主体部分是研究如何从Web文档中获取信息并把他们用XML描述出来,并且做到尽量的不失真。本论文分析了几种传统的从Web文档中获取信息的方法的不足。本论文所阐述的获取方法是通过解析Web文档中HTML的标记来获取文档中的描述信息和结构信息。我们对文档中的信息先进行分类,把文档的信息分为四类,分别为文本信息、图象信息、动画信息和流媒体信息。对不同的文档信息我们采用了不同的处理方法,从而使得解析更具有针对性。对几乎所有的HTML的标签都进行了处理,使得解析更加的完备。如何用XML来表示我们获取出来的文档信息,使用什么样的格式来对获取出来的信息进行描述,这就是制定一个描述Web文档的XML标准模型(DTD)的问题。这是本文的重点。本文先定义了Web文档的数学模型,分别对Web文档中的实体、属性、关系、窗体、事件和响应等概念进行了说明,把Web文档看成一个实体的集合。然后本文阐述了Web文档的描述模型。分别对Web文档的元数据、组织结构、媒体资源、页面资源、窗体资源和窗体之间的关系进行了定义。这样我们就对一个Web文档在逻辑和物理上分别进行了定义。在这个模型中,Web文档中不同元素之间的位置信息被提取出来并保留下来,从而使得转换过后的文档和原文档在结构方面保持了一致性,保证了文档结构的不失真。最后开发了基于上述模型的软件,做到了实践和理论相结合。本论文所提出的模型在国家科技部“十五”科技攻关项目“课件制作与转换工具”项目中得到了直接的体现。