基于半结构化数据信息检索的研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:yangyang03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于半结构数据具有结构复杂、不规范和易变等特点,研究人员普遍采用灵活的图或树形结构来设计半结构数据模型。在数据模型的基础上,研究人员又提出了若干半结构数据的查询语言。图形的半结构数据模型具有很强的表达能力,能够灵活的表示网络上各种格式的数据,但是图形模型无法对数据种不同程度的结构进行明确的描述和概括,数据所具有的结构完全隐含在数据表示当中,在描述结构规则性较高的数据时存在大量的模式信息冗余,数据的处理效率比较低。 本文试图利用半结构数据中的规则结构来解决上述问题。从实际的半结构数据出发,本文设计了描述数据结构规则性的方法,并根据半结构数据的数据模式将半结构数据转化为关系数据,提高半结构数据处理的效率。本文提出了关系和图数据相结合的半结构数据存储模型,以及根据数据所具有的结构规则性,重新组织和存储数据的实际方法。其次,本文给出了将半结构查询转化为关系运算表达式的算法,提出了利用关系查询执行技术求解半结构数据查询的思路。 另外,本文结合当前搜索引擎的不足之处,提出了基于站点的分布式检索结构;最后,本文对文本分类的算法进行了研究,在分析、比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种给合评估函数的TEF-WA权重调整技术,设计了一种新的权重函数,将特征评估函数蕴含到权值函数,按照特征对文本分类的辨别能力调整其在分类器中的贡献。
其他文献
  论文主要讨论了mpiJava系统在进行群组间通信时所存在的网络使用效率不高的问题,指出该问题的主要原因是系统通信接口的调度策略未经优化,并在总结了Panda,Java并行库(GMI),
随着互联网的迅猛发展和日益普及,越来越多的人们开始利用网络发布自己的作品、传递数据、共享信息,多媒体数据的存储、复制与传播变得越来越容易。网络在方便人们交流的同时
  本文在考察连接复用思想及其应用实例后,针对现有的连接资源缓冲池在复杂动态管理环境下自适应能力不足的问题,提出将Agent思想引入连接管理中。通过实时观测系统环境,用统
未来通信网络将是由有线网络、卫星网络、无线网络等各种网络混合互连而组成的庞大、复杂、开放的异构网络集合。网络状态的认知也由于网络结构的复杂而变的更为困难,主要原因
组态软件是一类数据采集与过程控制的专业软件,在以计算机为监控中心的电力综合自动化领域首先得到大量的应用,并逐步扩展到楼宇监测、水环境监测等领域,而组态图形系统是组
由于超级计算机的价格十分昂贵,其应用基本局限于一些特定领域;近年来,随着计算机技术的发展,集群系统以其极高的性能价格比逐渐赢得了超级计算机的广大市场,如电子商务系统
未来的军用和商用通信系统,大部分将由那些具有移动通信能力的无线网络设备组成。一个无线Adhoc网络是由一些移动设备,在不借助任何固定基础通信设施的前提下,组成的一个临时对
随着计算机系统规模的不断扩大和复杂性的不断增长,系统可信性问题成为网络安全领域日益关注的焦点,而传统的可信理念和技术由于不具备自我管理的能力和缺乏自主优化的特性,对随
当今,移动增值服务已经越来越被我们所熟悉,很多的企业都希望将自身的业务平台与短信息平台相结合。通过与几位年轻的开发伙伴经过半年的共同开发,开发出了基于J2EE平台下的短信
  计算机支持的协同工作(CSCW,ComputerSupportCooperativeWork)技术的出现和发展,从根本上改变了人们工作和交流方式,而作为支持协同工作的重要技术,工作流技术越来越受到了业