论文部分内容阅读
XML信息检索系统与传统的信息检索系统不同,主要体现在:建立索引时不仅需要建立倒排文本索引,还需要建立结构信息索引;查询处理时不仅需要处理关键字查询条件,还需要处理结构化查询条件。为满足结构复杂、大规模的XML数据管理需要,本文深入研究了XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,主要取得了4个方面的成果:第一,分析了已有的XML数据索引算法中存在的问题,提出了一种高效的动态XML结构索引算法DifX,它采用动态后向结构相似性(D-Bisimilarity)的概念,可以根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。第二,为考虑XML数据中的结构信息对查询结果相关度值的影响,本文提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,取得了更优的检索性能。第三,分析了XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。SXM有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。第四,设计和开发了一个中文XML信息检索系统的核心功能原型——W2X(Way to XML)。W2X是一个中文XML信息检索系统,它可以管理富含文本信息的XML数据和富含值信息的XML数据,并采用了高效的XML结构索引算法和查询处理算法,可以完成对大规模XML数据的检索。 总之,本文的研究成果为建立高效、准确、实用的XML信息检索系统打下了坚实的基础。