论文部分内容阅读
本文针对中小学信息化基础教育的需求和特点,从查询结果个性化的角度出发,对教学资源的个性化搜索引擎进行了一个特色规划。随着用户群和教学资源库的不断壮大,如何人性化的理解用户的查询需求,尽可能准确地返回查询请求内涵和外延的结果;如何在用户查询条件不十分确定的情况下将与其查询条件类似的页面以聚类的方式返回给用户,是现有条件下搜索引擎研究应该努力着手解决的问题。本文主要研究了Web挖掘在教学资源搜索引擎中的应用,Web挖掘分为Web内容挖掘,Web结构挖掘和Web使用挖掘。作者主要对其中的前两项内容进行了研究,结构挖掘是从WWW的组织结构、Web文档结构和链接关系中推导知识。就搜索引擎技术领域来说,可以通过分析一个网页或整个网站链接和被链接的数量、对象,建立Web自身的链接结构模式,通过分析和研究基于链接结构的搜索结果排名算法,可以指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。本文主要针对目前主流的PageRank算法,集中研究了该算法的计算方法、网页链接结构对PageRank值的影响,并分析该算法在独立网站、包含入站链接和出站链接等几种模型下的效果,提出了相应的优化策略。最后通过总结PageRank的优缺点,针对其中的主题漂移现象给出了改进后的PageRank算法,并对其进行了验证。在Web内容挖掘方面,作者所做的工作是研究如何利用Web挖掘技术,并结合现有的聚类技术,实现对Web文本数据的高准确率的分类和聚类。本论文提出通过Web内容挖掘和结构挖掘,提取网页在整个网站中的层次类别信息,通过这些层次类别信息对网页进行聚类。作者尝试引入后缀树(Suffix Tree Clustering)的概念对页面进行动态聚类,这是一种新的聚类算法。为一种新颖的、增量式的线性时间运算方法,该算法生成的数据结构非常紧凑,节约了大量的存储空间。非常适合于解决基本的字符串问题,这种方法的提出,为今后中文文本挖掘领域的研究提供了一个新的思路。