论文部分内容阅读
搜索引擎已经发展到今天的第四代----主题搜索引擎,它始终向着专业化和个性化方向发展。搜索引擎无论在主题爬行技术方面还是在其推进主题服务模式方面都有着良好的发展。然而,针对有着共同兴趣的群体,目前的搜索引擎在满足其信息需求方面还显得有些乏力。为此,论文针对现有搜索引擎的不足,提出主题搜索引擎的解决方案,实现搜索引擎的主题化需求,并就方案中涉及到的一系列理论和技术问题进行研究,主要包括:(1)重新界定了主题搜索引擎的概念,改进主题搜索引擎的模型框架,给出基于主题的元搜索引擎的工作原理。(2)主题爬虫技术是主题搜索引擎的核心技术之一,论文将蚁群算法引入到其中,这样就使主题爬虫能够根据用户的查询行为与兴趣进行对网页的遍历,更能提高主题爬虫的爬行效率。(3)论文提出主题推荐技术以获得更适合于有共同兴趣的群体的主题描述,通过改进常用的主题描述方法,建立一种基于蚁群算法爬行结果的主题树,并给出主题向量表示。(4)论文依据二次搜索的理念,给出通用搜索引擎与使用二次搜索的搜索引擎的工作原理。并详细介绍了二次搜索中所用到的主题推荐技术,给出主题推荐技术的算法。最后,重新设立主题搜索引擎的性能指标,并根据这些指标做出实验,验证使用二次搜索的主题搜索引擎的优越性。