天网Ftp搜索搜索结果优化及Web资源整合

来源 :北京大学 | 被引量 : 0次 | 上传用户:ymqlove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
天网 Ftp 资源搜索引擎的前身是天网千帆,它是一个基于Web的海量Ftp搜索引擎,以用户关键词和Ftp文件名匹配的方式来实现对Ftp文件的搜索,方便用户查找和下载互联网上的Ftp文件资源。本文的研究范围是天网Ftp资源搜索引擎的搜索结果质量优化及Web文件资源与Ftp文件资源整合的问题。 第一部分先介绍了天网Ftp资源搜索的系统结构和现状,然后在站点可下载性探测的基础上,提出了基于站点可下载性评分系统的搜索结果排序策略,最后通过仿真实验量化比较各种搜索结果优化策略的效果。 第二部分先介绍了基于Ftp文件Md5计算的镜像搜索实现原理和主要技术,然后阐述了针对Web文件资源网站的搜集和信息提取相关的主要技术,将得到的Web文件资源与原系统的Ftp文件资源整合起来,将系统升级为一个通用文件搜索引擎。
其他文献
指代大量地出现在自然语言文本中,它对于简化表达、衔接上下文起着重要的作用,文本的概念关联性在很大程度上就是通过指代关系来刻画的。指代消解已成为许多自然语言处理应用中
随着信息技术的不断发展,软件产品被应用到社会的每个角落。在软件开发过程中,保证软件的质量和保持软件的高效对于软件开发人员是一个巨大的挑战。软件质量是通过软件测试和
近年来,在不断涌现的数字视频应用需求的推动下,数字视频编解码技术获得了突飞猛进的发展。为了使不同厂家生产的多媒体产品交换或接受来自公共信源的信息,国际上相关的研究组织
WebLab是北京大学生物信息中心开发的一个生物信息网上实验室,它集成了包括Blast等共计194个程序及所需的数据库。用户无需安装任何软件,即可通过浏览器使用这个基因计算平台,选
多Agent自动协商技术已经在分布式计算,电子商务等领域中得到了广泛的使用,研究者提出了各种协商方法,这些方法主要分为三个类别:基于对策论的协商方法,启发式的协商方法和基于辩
随着互联网的高速发展和搜索引擎的出现,人们从互联网上获取信息比以往任何时候都变得快捷和高效。随着各种应用的丰富,越来越多的数据存在于后台数据库中,由服务器端程序自动生
本文对Linux内核动态侧面支持框架的设计与实现进行了探讨。本研究在总结已有研究成果的基础上,提出的一种新的动态侧面编排技术。新的编排技术将动态编排过程分为两个阶段:第
热部署是现今主流应用服务器的典型特性之一。然而,这些主流应用服务器在部署过程中将每个模块看作一个独立的应用。因此,当模块化应用仅仅对被依赖模块进行热部署更新时,原
软件质量作为软件工程中的一个重要课题,受到大量的关注和广泛的研究。目前保障软件质量的方法可分为测试和验证两大类。软件测试通过定义各种测试充分性,可以提高我们对被测软
互联网的异构性(Heterogeneity)和运行的不确定性使得基于互联网的分布式系统的设计和构建非常困难。近年来,我们见证的大规模的、成功的资源共享系统大都放弃了对“单一资源