论文部分内容阅读
随着信息技术的不断发展,Web上的信息量呈爆炸式的增长。按照蕴含信息的深度,可以将Web划分为Surface Web和Deep Web两大类。在访问模式上Deep Web有别于Surface Web。Surface Web指那些可以通过超链接访问的、可以被传统搜索引擎索引的Web资源集合。而Deep Web中的数据隐藏在Web站点后台数据库中,不能直接通过URL链接访问,而只能通过查询接口访问。Deep Web中所包含的信息量是Surface Web中的400到500倍。而且,Deep Web中的信息都是针对特定领域的非常有价值的数据。所以,如能有效地利用这部分信息,能够更加充分地发挥Internet的作用。要充分利用Deep Web中的数据,就要解决两方面问题:一是要保证查询结果的高质量,二是要保证查询的效率。要保证查询质量,数据源选择是非常关键的一步。现有的Deep Web数据源选择策略一般只关注数据源的查询接口,不适用于对同一领域下的数据源进行选择。为了解决这个问题,本文提出了综合多种因素的数据源选择模型DSSM,基于此模型实现数据源选择。DSSM针对用户查询,不但考虑了数据源的查询接口模式,而且考虑了数据源的搜索模式,后台数据库的内容,以及数据源的质量情况,能够选出最有能力满足用户查询请求的、具备丰富资源而又最准确的、高质量的数据源。要保证查询效率,缓存是必不可少的。由于Deep Web自身特点,现有的缓存系统不适用于Deep Web数据集成。对此,本文提出了应用于Deep Web数据集成中的结果缓存模型RCM,基于此模型实现对集成结果的缓存。RCM是基于硬盘和内存进行存储的,存储的对象为查询对应的多个结果记录和原始页面。在RCM模型中着重解决了以下问题:存储格式定义、数据一致性保证、分布式存储平衡和缓存优化问题。在Deep Web数据集成中加入缓存后,大大缩短了系统响应时间,提高了系统的效率。