Invisible Web信息检索方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yao2042547
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上的信息量迅猛增加,搜索引擎在人们使用网络的过程中扮演着越来越重要的角色,几乎所有上网的人都会用到搜索引擎来查找信息。同时各搜索引擎在不断地发展,收录的网页也越来越多。但这些搜索引擎并非可以搜到互联网所有的网页,网上仍有一大部分页面普通搜索引擎搜索不到,这些网页就是“Invisible Web”,即看不见的网页。据调查研究的结果可知,Invisible Web中蕴含着大量有价值的信息,可是它们却不能被当前主流搜索引擎搜索到。因此,研究能够对Invisible Web进行搜索的技术和方法就显得很有必要且很有价值。传统的面向Invisible Web信息的检索方式主要有两大类:目录检索和自动检索。在国外目录检索工具发展已经比较成熟,但这种检索方式查全率低,检索速度慢,不能满足用户的查询需要。而自动检索是真正地对Invisible Web进行检索,它可以将用户的检索请求同时推送到多个相关网络数据库中进行检索,而后把结果返回给用户。所以自动检索逐渐成为该领域研究的热点。本文首先深入分析了Invisible Web产生的原因及存在的主要类型,并论述了这种信息资源的特点;然后分析了传统的检索方式检索Invisible Web存在的问题,提出将分布式技术应用于Invisible Web检索中,可以增强自动检索工具的检索能力。深入分析了分布式信息检索的基本原理和体系结构,提出了采用分布式检索方式检索Invisible Web信息的关键步骤,即:数据集合划分、数据集合选择、结果合并。重点研究了这三个关键步骤中的算法:提出一种基于自动聚类的数据集合划分算法——CBCPA算法,实验表明该算法具有很好的效果;分析了四种典型的数据集合选择方法,并对各种算法进行了综合评价,最后提出了一种改进的数据集合选择方法,即将DTF与查询驱动的选择方法相结合的方法;对经典的CORI算法和新提出的结果合并算法——回归分析与选择下载相结合的Hybrid算法的基本原理进行了讨论,并通过实验证明Hybrid算法的性能要优于CORI算法。
其他文献
课堂提问是教师与学生在课上进行交流的最直接的方式,也是教师了解学生对语文知识理解程度的重要渠道.语文是初中阶段的一门基础课程,对培养学生的文学素养以及对文字的综合
近年来,我国水产养殖业蓬勃发展,己逐步从传统的粗放型养殖向工厂化、自动化和数字化方向发展。水产养殖数字化监测与控制将是未来水产养殖的必然趋势。本文在江苏省农业和工业
能源危机和环境污染是当前人类面临的重大问题。半导体光催化技术在环境治理、能源转化和存储等领域已经展示出广阔的应用前景。二氧化钛(TiO2)具有原料丰富、化学/光化学性
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
煤炭石油资源枯竭,人类面临的环境问题日益严峻,亟待开发利用可再生新能源。以风能和太阳能为代表的新能源受环境条件限制,具有间歇性和随机性,其高效储存和利用成为一大难点。超
本刊讯每年一度的中国中部地区规模最大、最专业的文物艺术品拍卖会,2013武汉中信秋季文物艺术品拍卖会将于2013年11月23日全天在武汉亚洲大酒店澳门厅举行,11月21、22日预展
摘 要小组合作学习是新课改大力倡导的一种教学方式,其在教学中的应用,可以使学生更好地实现“自主、合作、探究”等,使得新课改的要求得到满足。因此,小学教师在数学教学中,也可以引入这一方法,增强教学的生动性和新颖性,促使高效课堂的构建。基于此,本文将对小组合作学习的实践路径进行研究,希望对相关工作的展开发挥出借鉴价值。  关键词小学数学;小组合作学习;实施路径  中图分类号:G622文献标识码:A文章
高钒高速钢作为一种新型耐磨材料,受到国内外的广泛关注。连续冷却转变曲线(CCT)是分析连续冷却过程中奥氏体转变过程及转变产物组织和性能的依据,也是制定钢的热处理工艺的重
艺术家陈述“地下层”是一个正在进行的有关检查加拿大蒙特利尔和多伦多城市下水道系统的项目。自2007年以来,我一直暗中在没有市政府同意的情况下穿梭于这些地下网络,并拍摄
FZD-9010B制动试验台为滚筒反力式制动试验台,是目前用于车辆制动性能检测的常规设备。它最大不足是不能检测制动力变化(制动力曲线)、制动力从零增长到制动器抱死直致车轮弹跳