论文部分内容阅读
随着网络技术的迅猛发展,WWW已成为信息发布、交互及获取的主要工具,它涉及新闻、广告、消费、金融、教育、电子商务等许多领域。人们要从这些海量的数据中查找数据和信息,使用最多的就是搜索引擎技术。本文针对MBA教育网络信息化的需求和特点,从查询结果个性化的角度出发,对教学资源的个性化搜索引擎进行了一个特色规划。随着用户群和教学资源库的不断壮大,如何人性化的理解用户的查询需求,尽可能准确地返回查询请求内涵和外延的结果;如何通过分析和研究个性化搜索引擎,掌握用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验,是现有条件下搜索引擎研究应该努力着手解决的问题。本文研究了Web挖掘在教学资源搜索引擎中的应用,Web挖掘分为Web内容挖掘,Web使用挖掘和Web结构挖掘。论文主要对其中的前两项内容进行了研究,结构挖掘是从WWW的组织结构、Web文档结构和链接关系中推导知识。就搜索引擎技术领域来说,可以通过分析一个网页或整个网站链接和被链接的数量、对象,建立Web自身的链接结构模式,通过分析和研究基于链接结构的搜索结果排名算法,可以指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。本文主要针对目前主流的PageRank算法,集中研究了该算法的计算方法、网页链接结构对PageRank值的影响,并分析该算法在独立网站、包含入站链接和出站链接等几种模型下的效果,提出了个性化PageRank算法优化策略。通过总结PageRank存在的一些问题,针对其中的主题漂移现象给出了改进后的个性化PageRank算法,并对其进行了验证。最后主要针对MBA教育资源搜索个性化引擎系统进行系统设计。