论文部分内容阅读
XML(Extensive Markup Language可扩展标志语言)是W3C机构继HTML之后提出的又一超文本标记语言。越来越多的网上信息交换都依附于这种形式,许多软件需要检索、存取、处理相关条件的XML文档并且返回近似值,因此XML文档的相似性评价受到越来越多的关注。XML文档本身并不是简单的树状结构,它通过XLL(Extensible Link Language可扩展链接语言)可完成所有典型的超文本链接,也就是说,随着XML描述能力的不断扩大,不能将XML文档简单的描述为树状结构,而是XML文档图,其结构相似性比较对文档查询、聚类意义重大。现有的比较XML树状结构相似性以及比较图结构相似性的方法忽视了文档结构特点,比较的结果与实际存在较大差异。本文针对这一问题,提出了一种XML文档图结构相似性计算的方法,将文档中的链接写入文档结构,基于文档图比较结构相似性。为此,本文从以下几个方面进行研究和探讨:首先,本文介绍了XML文档的概念、特点及应用领域,分析了XML文档图的描述形式,存在的客观必然性,以及结构相似性的广泛应用。其次,本文在介绍了现有的比较文档结构相似性的几种方法后,提出了一种比较方法,从文档本身的图形结构出发,通过将图转化为树来设置相应结点和边的权重、完成代价转换,描绘文档图的结构相似性。然后,本文通过举例分析说明了本方法的可行性:1.结点之间关联的变化能通过相似度值得到体现;2.从邻接矩阵找到关联最多的结点作为根结点,确定可作为根的结点的位置和个数;3.从根结点开始确定树形结构以赋予边和结点相应的权重,为后续操作代价的计算提供依据;4.通过矩阵转换,完成结点和边的添加删除操作,以及由此产生的代价;5.运用本文提出的公式计算文档相似度值;最后,本文将该算法与其他算法进行对比,说明该方法更符合人们的判断标准,更能真实的反映两XML文档图的相似程度,并提出完善本算法的进一步打算。