XML文档图结构相似性计算

来源 :东北师范大学 | 被引量 : 3次 | 上传用户:Hmilts
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(Extensive Markup Language可扩展标志语言)是W3C机构继HTML之后提出的又一超文本标记语言。越来越多的网上信息交换都依附于这种形式,许多软件需要检索、存取、处理相关条件的XML文档并且返回近似值,因此XML文档的相似性评价受到越来越多的关注。XML文档本身并不是简单的树状结构,它通过XLL(Extensible Link Language可扩展链接语言)可完成所有典型的超文本链接,也就是说,随着XML描述能力的不断扩大,不能将XML文档简单的描述为树状结构,而是XML文档图,其结构相似性比较对文档查询、聚类意义重大。现有的比较XML树状结构相似性以及比较图结构相似性的方法忽视了文档结构特点,比较的结果与实际存在较大差异。本文针对这一问题,提出了一种XML文档图结构相似性计算的方法,将文档中的链接写入文档结构,基于文档图比较结构相似性。为此,本文从以下几个方面进行研究和探讨:首先,本文介绍了XML文档的概念、特点及应用领域,分析了XML文档图的描述形式,存在的客观必然性,以及结构相似性的广泛应用。其次,本文在介绍了现有的比较文档结构相似性的几种方法后,提出了一种比较方法,从文档本身的图形结构出发,通过将图转化为树来设置相应结点和边的权重、完成代价转换,描绘文档图的结构相似性。然后,本文通过举例分析说明了本方法的可行性:1.结点之间关联的变化能通过相似度值得到体现;2.从邻接矩阵找到关联最多的结点作为根结点,确定可作为根的结点的位置和个数;3.从根结点开始确定树形结构以赋予边和结点相应的权重,为后续操作代价的计算提供依据;4.通过矩阵转换,完成结点和边的添加删除操作,以及由此产生的代价;5.运用本文提出的公式计算文档相似度值;最后,本文将该算法与其他算法进行对比,说明该方法更符合人们的判断标准,更能真实的反映两XML文档图的相似程度,并提出完善本算法的进一步打算。
其他文献
随着军事需求的不断增强和商用无线通信技术的快速发展,频谱资源变得日益紧缺,较低频率的微波已不能满足时代需求,对较高频率的毫米波研究正在成为大家关注的热点。因为W波段
人脸检测问题最初来源于人脸识别,是指在输入图像中判断是否存在人脸区域,进一步确定人脸的位置,以及面部特征信息等。现在人脸检测的应用背景已经远远超出了人脸识别系统的
随着用户对移动通信系统容量以及通信可靠性的要求不断提高,近年来多输入多输出(MIMO)技术作为解决该问题的一个有效措施而受到了广泛的研究。对于天线工作者来说则关注于研
在最近些年来,震电效应的实验研究逐渐开展并受到关注,在地球资源勘探及地球科学领域,尤其是油气水的开发的应用潜力巨大,促使国内外学者投入大量精力从事该项研究。此外,震
微波辐射计在射电天文、遥感、目标探测、制导、医学等方面有很多应用。为了提高微波辐射计的空间分辨率,出现了综合孔径微波辐射计。综合孔径微波辐射计是基于干涉测量原理
本论文首先介绍了RFID(Radio Frequency Identification)系统的基本知识,详细讨论了目前制约RFID发展的两个重要因素:安全和成本。介绍了现有的加强RFID系统安全性的各种方法
iSCSI(internet SCSI,因特网小型计算机系统接口)是一种流行的SAN(storagearea network,存储区域网络),它具有SAN的高速与可靠性,同时在网络上基于TCP/IP协议,摆脱了传统SAN