论文部分内容阅读
天网 Ftp 资源搜索引擎的前身是天网千帆,它是一个基于Web的海量Ftp搜索引擎,以用户关键词和Ftp文件名匹配的方式来实现对Ftp文件的搜索,方便用户查找和下载互联网上的Ftp文件资源。本文的研究范围是天网Ftp资源搜索引擎的搜索结果质量优化及Web文件资源与Ftp文件资源整合的问题。
第一部分先介绍了天网Ftp资源搜索的系统结构和现状,然后在站点可下载性探测的基础上,提出了基于站点可下载性评分系统的搜索结果排序策略,最后通过仿真实验量化比较各种搜索结果优化策略的效果。
第二部分先介绍了基于Ftp文件Md5计算的镜像搜索实现原理和主要技术,然后阐述了针对Web文件资源网站的搜集和信息提取相关的主要技术,将得到的Web文件资源与原系统的Ftp文件资源整合起来,将系统升级为一个通用文件搜索引擎。