Deep Web环境下数据源选择和结果缓存的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:wik2pwerq32
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,Web上的信息量呈爆炸式的增长。按照蕴含信息的深度,可以将Web划分为Surface Web和Deep Web两大类。在访问模式上Deep Web有别于Surface Web。Surface Web指那些可以通过超链接访问的、可以被传统搜索引擎索引的Web资源集合。而Deep Web中的数据隐藏在Web站点后台数据库中,不能直接通过URL链接访问,而只能通过查询接口访问。Deep Web中所包含的信息量是Surface Web中的400到500倍。而且,Deep Web中的信息都是针对特定领域的非常有价值的数据。所以,如能有效地利用这部分信息,能够更加充分地发挥Internet的作用。要充分利用Deep Web中的数据,就要解决两方面问题:一是要保证查询结果的高质量,二是要保证查询的效率。要保证查询质量,数据源选择是非常关键的一步。现有的Deep Web数据源选择策略一般只关注数据源的查询接口,不适用于对同一领域下的数据源进行选择。为了解决这个问题,本文提出了综合多种因素的数据源选择模型DSSM,基于此模型实现数据源选择。DSSM针对用户查询,不但考虑了数据源的查询接口模式,而且考虑了数据源的搜索模式,后台数据库的内容,以及数据源的质量情况,能够选出最有能力满足用户查询请求的、具备丰富资源而又最准确的、高质量的数据源。要保证查询效率,缓存是必不可少的。由于Deep Web自身特点,现有的缓存系统不适用于Deep Web数据集成。对此,本文提出了应用于Deep Web数据集成中的结果缓存模型RCM,基于此模型实现对集成结果的缓存。RCM是基于硬盘和内存进行存储的,存储的对象为查询对应的多个结果记录和原始页面。在RCM模型中着重解决了以下问题:存储格式定义、数据一致性保证、分布式存储平衡和缓存优化问题。在Deep Web数据集成中加入缓存后,大大缩短了系统响应时间,提高了系统的效率。
其他文献
多媒体的不断普及,它已经成为了我们获取信息的一个重要手段。与此同时,视频安全播出的形势也愈发严峻。数字视频的播出环节比模拟视频复杂得多,播出中常产生的多种异态,而节
在过去的几十年里,传统的关系数据库管理系统在商业数据管理中发挥了非常重要的作用。但是,近年来随着计算机应用技术,特别是Web信息技术的不断发展,当今的数据呈现出了两大
在互联网上,大部分服务器郡是因为服务器的配置不当或女装小正确而被攻击,只要修补已知的安全漏洞,就可以抵抗绝大部分的黑客入侵。但是目前很多企业购买的网络安全产品都采
近年来,自然语言处理的研究已经成为热点,而分词与词性标注两个任务作为自然语言研究领域的一个重要分支,同样为大家所关注。分词与词性标注的是自然语言处理的预处理部分,占