中文XML信息检索系统的研究

被引量 : 26次 | 上传用户:wuyuwei1210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML信息检索系统与传统的信息检索系统不同,主要体现在:建立索引时不仅需要建立倒排文本索引,还需要建立结构信息索引;查询处理时不仅需要处理关键字查询条件,还需要处理结构化查询条件。为满足结构复杂、大规模的XML数据管理需要,本文深入研究了XML信息检索系统中的结构索引算法设计和结构化查询优化中的查询代价估计问题,以及查询结果和查询条件间的相关度算法,主要取得了4个方面的成果:第一,分析了已有的XML数据索引算法中存在的问题,提出了一种高效的动态XML结构索引算法DifX,它采用动态后向结构相似性(D-Bisimilarity)的概念,可以根据实际查询需求以及索引最优化的要求动态决定索引中保存的结构信息。第二,为考虑XML数据中的结构信息对查询结果相关度值的影响,本文提出了一种综合考虑关键字频率分布特征和结构分布特征的查询结果相关度算法,以及一种基于节点的关键字权重计算法,取得了更优的检索性能。第三,分析了XML结构化查询优化中的查询代价估计问题与传统关系型数据库中的查询代价估计问题的区别,提出了一套完整的XML结构化查询代价估计体系SXM,包括对简单路径表达进行查询代价估计的动态XML数据统计模型XMap,对复杂路径表达进行查询代价估计的双焦点例举法,以及对值匹配条件进行查询代价估计的基于小波的多维直方图方法,并能将多种查询表达的查询代价估计结果结合在一起,以给出一个完整的XPath查询的代价估计。SXM有效解决了XML结构化查询代价估计中存在的结构不规则、查询表达复杂、数据间相互依赖关系复杂等问题。第四,设计和开发了一个中文XML信息检索系统的核心功能原型——W2X(Way to XML)。W2X是一个中文XML信息检索系统,它可以管理富含文本信息的XML数据和富含值信息的XML数据,并采用了高效的XML结构索引算法和查询处理算法,可以完成对大规模XML数据的检索。 总之,本文的研究成果为建立高效、准确、实用的XML信息检索系统打下了坚实的基础。
其他文献
网络空间内对信息系统的攻击愈演愈烈,对国家安全、经济稳定以及民众生活造成了极大的挑战,网络安全已成为全球性议题。美国近期开始推动专门性立法,以保护网络关键基础设施
摘 要铝合金重量轻、比强度高、抗腐蚀性好,又便于回收再利用,近年来在汽车、高速列车、船舶等行业的应用越来越广泛,因此研究高效优质的铝合金焊接技术有重要意义。双脉冲焊,即
随着计算机、微电子、自动控制等技术的发展,作为信息处理的重要手段,数据采集技术正在向集成化、数字化、标准化方向发展。市场上的数据采集装置一般是基于PCI和ISA总线的,这占
海绵城市,是时下城市建设管理的新热点,城市下垫面是城市健康的晴雨表,是城市体检的重要特征项。近些年来在地理国情常态化监测的大背景下,城市下垫面的监测变得越来越重要,
随着科技的进步,人工智能技术迅速发展起来,并在社会各个领域得到了广泛应用。人工智能是计算机的一个分支,涉及到信息论、控制论、语言学、数学、科学、仿生学等多个学科,具
颜师古是唐代的一位成就卓著的文献学家。他奉太子承乾之命,集服虔、应劭、晋灼、臣瓒、蔡谟等汉隋间二十三家注,独立完成了为《汉书》作注的工作。《汉书注》是颜师古的学术代
客户关系管理CRM(Customer Relationship Management),指的是对企业和客户的交互活动进行管理的过程,最终实现提高客户获取、客户保留、客户忠诚度和客户赢利的目的。CRM是一整
戴震是清代“皖派”朴学大师,一生著述宏富。本文从历史文献学的角度,较为全面深入地阐述了戴震在这一领域的各项具体成就:确立由训诂探寻义理、实事求是、本末兼察、巨细毕究、
在《太阳照样升起》一书中,欧内斯特·海明威成功地向读者展示了一幅一战后“迷惘”一代的生活画卷。一战的残酷与血腥使传统的伦理道德和价值观念沦丧,理想幻灭。战后的世界突
本文试图就美国现代作家威廉·福克纳与“南方性”文化气质特征之间的关联进行较为深入的探讨。除了美国南方自身所秉持的各种独特个性之外,作为一个曾经风云一时的南方庄园主