论文部分内容阅读
根据统计,因特网每天新添几百万个文件,平均8个月增长1倍,其网页总数猛增至今的几百亿。如何有效的发现我们所需的信息已经成为一个关键性的问题,在这种背景下,产生了搜索引擎。但是随着因特网海量数据的产生,致使目前最好的搜索引擎其全球网页覆盖率也只有30%左右。而且由于不同的搜索引擎所采用的算法和搜索范围的不同,返回搜索结果的重复率不到34%。为了解决传统搜索引擎存在的问题,元搜索引擎应运而生。元搜索引擎的出现为人们带来了极大的便利,但也存在着一些问题制约着它的发展,如网络资源的限制,显示结果数和搜索时间不理想等。本文首先介绍了搜索引擎、元搜索引擎和最优搜索理论方面的相关知识,然后通过应用最优搜索理论和基于学习的方法建立最优分配模型来对当前的元搜索引擎模型进行改进,合理分配网络资源和选择成员搜索引擎,合理配置显示结果数和搜索时间,使得用户在自己设置的显示结果数和搜索时间下能获得最佳的搜索结果和性能,充分体现了人性化,满足了用户的实际需要,而又不给网络造成太大的负担。最后,通过结合网上现有的源代码我们设计并实现了一个并行式元搜索引擎。相比于一般的元搜索引擎由于结合了上述的技术,使用起来显得更加的人性化。然后我们对系统的响应时间和查准率进行分析。通过和普通搜索引擎以及之前的元搜索引擎相比,我们证明了该系统在查准率上对于一般的搜索引擎而言有着明显的优越性,在响应时间上也优于之前的元搜索引擎。