论文部分内容阅读
本文介绍了一种基于语义Web的XML全文搜索引擎。它不仅可以检索文档的内容,还可以检索文件的结构。它采用简化的XPath语法查询,返回符合查询需求的结点或结点集合。不仅可以检索XML文档,还可以检索PDF、JPEG等文件中的XMP包。XMP包,其实是嵌入宿主文件的XML文档片段,是Adobe公司制定的一种元数据标准。本系统最初被设计用来在语义Web上检索包含DC、PRISM与XMP元数据的XML文档,但它具有内在的可扩展性。系统维持一个可索引的NS的列表,所有NS位于这个列表中的元素与属性都被系统索引。系统的管理者可以配置这个列表,控制应该对哪些NS中的元素与属性建立索引,当然也可以对所有的NS开放,包括NS为空的情况。本文首先介绍了语义Web的历史、体系结构和几个关键技术——XML、RDF(S)和Ontology,及DC、PRISM、XMP元数据标准,并着重介绍了Adobe公司的XMP包技术。XMP包,是嵌入宿主文件中的结构良好的XML文档片段,一般来讲,它是对宿主文件元数据信息的简单描述。接下来介绍了基于传统Web的搜索引擎技术的相关知识,包括搜索引擎的分类、性能指标、主要构成部件、及它的发展趋势。最后是对上文提到的搜索引擎的研究、设计与实现,并提出了一些改进与设想。