论文部分内容阅读
网络环境的变化和互联网技术迅猛发展带来的信息爆炸,使得实现对某一专题领域信息精确查找的垂直搜索引擎获得迅速发展。当下大部分搜索引擎缺乏主动性,在搜索的过程中不能考虑用户的兴趣,不能快速精准的查找用户所关心的信息。本文设计并实现在垂直搜索引擎环境中提供个性化服务的系统。并使用软件工程方法对系统进行需求分析,系统设计,完成系统的实现。首先研究当下垂直搜索引擎的发展前景,分析传统搜索引擎三个核心组成部分的功能原理,并结合当下的网络环境分析了用户的需求。并确定系统的开发的目标,设计了系统的整体架构,进而确定系统的主要功能,用户基本信息与用户兴趣管理,专题内容的抓取,基本搜索功能与相关信息的推荐功能,并确定了系统中关键数据流的转换。同时抽象出系统的角色与用例,对用例进行详细的说明。然后探讨了基于协同过滤的推荐引擎的基本原理和方法,并基于协同过滤思想,结合中文分词建立基于兴趣的用户模型,通过聚类算法对兴趣处理生成用户兴趣类别,并根据推荐内容重新设计了Lucene提供的搜索结果排序评分算法。将推荐系统整合到垂直搜索引擎中,实现个性化搜索,从而达到提高信息的查找精确率的目的。考虑到实现协同过滤推荐用户个性化内容的用户模型设计,在系统设计部分对所需要存储的数据设计了的数据库表。分析搜索引擎的工作原理、关键技术和系统架构的研究,设计了基于协同过滤技术的搜索引擎框架。最后分析当下开源框架Lucene、Nutch、Mahout、IkAnalyzer,整合现有资源做系统原型,提高中文环境下的搜索结果的准确性,通过研究和分析网络爬虫的工作原理和中文分词技术,实现对专题信息的抓取,修改开源项目中部分接口,实现本文所设计的基于协同过滤的个性化垂直搜索引擎,并对系统整个系统进行测试。