中文XML信息检索系统的研究

被引量 : 26次 | 上传用户：wuyuwei1210

【摘要】

：

XML信息检索系统与传统的信息检索系统不同，主要体现在：建立索引时不仅需要建立倒排文本索引，还需要建立结构信息索引；查询处理时不仅需要处理关键字查询条件，还需要处理结构化查

【作者】

：

曲卫民

【发表日期】

：

2004年01期

【关键词】

：

XML信息检索系统结构索引算法查询结果相关度算法查询代价估计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML信息检索系统与传统的信息检索系统不同，主要体现在：建立索引时不仅需要建立倒排文本索引，还需要建立结构信息索引；查询处理时不仅需要处理关键字查询条件，还需要处理结构化查询条件。为满足结构复杂、大规模的XML数据管理需要，本文深入研究了XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题，以及查询结果和查询条件间的相关度算法，主要取得了4个方面的成果：第一，分析了已有的XML数据索引算法中存在的问题，提出了一种高效的动态XML结构索引算法DifX，它采用动态后向结构相似性(D-Bisimilarity)的概念，可以根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。第二，为考虑XML数据中的结构信息对查询结果相关度值的影响，本文提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法，以及一种基于节点的关键字权重计算法，取得了更优的检索性能。第三，分析了XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别，提出了一套完整的XML结构化查询代价估计体系SXM，包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap，对复杂路径表达进行查询代价估计的双焦点例举法，以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法，并能将多种查询表达的查询代价估计结果结合在一起，以给出一个完整的XPath查询的代价估计。SXM有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。第四，设计和开发了一个中文XML信息检索系统的核心功能原型——W2X(Way to XML)。W2X是一个中文XML信息检索系统，它可以管理富含文本信息的XML数据和富含值信息的XML数据，并采用了高效的XML结构索引算法和查询处理算法，可以完成对大规模XML数据的检索。总之，本文的研究成果为建立高效、准确、实用的XML信息检索系统打下了坚实的基础。

其他文献

美国网络安全立法近期进展及对我国的启示

网络空间内对信息系统的攻击愈演愈烈,对国家安全、经济稳定以及民众生活造成了极大的挑战,网络安全已成为全球性议题。美国近期开始推动专门性立法,以保护网络关键基础设施

期刊

网络安全立法美国网络安全立法保护关键基础设施网络安全信息共享

数字控制铝合金双脉冲MIG焊工艺的研究

摘要铝合金重量轻、比强度高、抗腐蚀性好，又便于回收再利用，近年来在汽车、高速列车、船舶等行业的应用越来越广泛，因此研究高效优质的铝合金焊接技术有重要意义。双脉冲焊，即

学位

全数字控制DSP双脉冲弧长同步脉冲控制法变参数数字 PI

基于DSP便携式数据采集系统设计

随着计算机、微电子、自动控制等技术的发展，作为信息处理的重要手段，数据采集技术正在向集成化、数字化、标准化方向发展。市场上的数据采集装置一般是基于PCI和ISA总线的，这占

学位

信息处理数据采集串行通讯总线

基于地理国情的城市下垫面变化监测在海绵城市建设中的应用与实践

海绵城市,是时下城市建设管理的新热点,城市下垫面是城市健康的晴雨表,是城市体检的重要特征项。近些年来在地理国情常态化监测的大背景下,城市下垫面的监测变得越来越重要,

期刊

海绵城市国情监测城市下垫面地理国情

人工智能在电气工程自动化中的应用

随着科技的进步,人工智能技术迅速发展起来,并在社会各个领域得到了广泛应用。人工智能是计算机的一个分支,涉及到信息论、控制论、语言学、数学、科学、仿生学等多个学科,具

期刊

人工智能电气工程自动化优势电力系统

颜师古《汉书注》文献学成就初探

颜师古是唐代的一位成就卓著的文献学家。他奉太子承乾之命，集服虔、应劭、晋灼、臣瓒、蔡谟等汉隋间二十三家注，独立完成了为《汉书》作注的工作。《汉书注》是颜师古的学术代

学位

颜师古《汉书注》训诂校勘考证

基于多Agent协作机制的酒店客户关系管理系统的研究

客户关系管理CRM(Customer Relationship Management)，指的是对企业和客户的交互活动进行管理的过程，最终实现提高客户获取、客户保留、客户忠诚度和客户赢利的目的。CRM是一整

学位

客户关系管理数据挖掘多agentFIFAJADE

戴震的历史文献学成就初探

戴震是清代“皖派”朴学大师，一生著述宏富。本文从历史文献学的角度，较为全面深入地阐述了戴震在这一领域的各项具体成就：确立由训诂探寻义理、实事求是、本末兼察、巨细毕究、

学位

戴震历史文献考据传注辑佚目录校勘辨伪

论欧内斯特·海明威小说《太阳照样升起》中的荒诞意识

在《太阳照样升起》一书中，欧内斯特·海明威成功地向读者展示了一幅一战后“迷惘”一代的生活画卷。一战的残酷与血腥使传统的伦理道德和价值观念沦丧，理想幻灭。战后的世界突

学位

荒诞感海明威《太阳照样升起》

来自南方腹地的悠远根系

本文试图就美国现代作家威廉·福克纳与“南方性”文化气质特征之间的关联进行较为深入的探讨。除了美国南方自身所秉持的各种独特个性之外，作为一个曾经风云一时的南方庄园主

学位

多里斯约克纳帕塔法威廉·福克纳斯诺普斯三部曲边缘地位我弥留之际八月之光人物精神《喧哗与骚动》家族背景

中文XML信息检索系统的研究

其他学术论文