Web挖掘在教学资源搜索引擎中的应用研究

来源 :东北师范大学 | 被引量 : 3次 | 上传用户:ljvael
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对中小学信息化基础教育的需求和特点,从查询结果个性化的角度出发,对教学资源的个性化搜索引擎进行了一个特色规划。随着用户群和教学资源库的不断壮大,如何人性化的理解用户的查询需求,尽可能准确地返回查询请求内涵和外延的结果;如何在用户查询条件不十分确定的情况下将与其查询条件类似的页面以聚类的方式返回给用户,是现有条件下搜索引擎研究应该努力着手解决的问题。本文主要研究了Web挖掘在教学资源搜索引擎中的应用,Web挖掘分为Web内容挖掘,Web结构挖掘和Web使用挖掘。作者主要对其中的前两项内容进行了研究,结构挖掘是从WWW的组织结构、Web文档结构和链接关系中推导知识。就搜索引擎技术领域来说,可以通过分析一个网页或整个网站链接和被链接的数量、对象,建立Web自身的链接结构模式,通过分析和研究基于链接结构的搜索结果排名算法,可以指导网站链接结构优化,有组织,有规划地提高网页在搜索结果中的排名,避免盲目处理造成的混乱结果。本文主要针对目前主流的PageRank算法,集中研究了该算法的计算方法、网页链接结构对PageRank值的影响,并分析该算法在独立网站、包含入站链接和出站链接等几种模型下的效果,提出了相应的优化策略。最后通过总结PageRank的优缺点,针对其中的主题漂移现象给出了改进后的PageRank算法,并对其进行了验证。在Web内容挖掘方面,作者所做的工作是研究如何利用Web挖掘技术,并结合现有的聚类技术,实现对Web文本数据的高准确率的分类和聚类。本论文提出通过Web内容挖掘和结构挖掘,提取网页在整个网站中的层次类别信息,通过这些层次类别信息对网页进行聚类。作者尝试引入后缀树(Suffix Tree Clustering)的概念对页面进行动态聚类,这是一种新的聚类算法。为一种新颖的、增量式的线性时间运算方法,该算法生成的数据结构非常紧凑,节约了大量的存储空间。非常适合于解决基本的字符串问题,这种方法的提出,为今后中文文本挖掘领域的研究提供了一个新的思路。
其他文献
HLA是为解决分布式仿真应用间的互操作性和可重用性而提出的通用仿真技术框架,在军事、交通、教育、娱乐等领域得到了广泛的应用。但是HLA仅规定了各个仿真应用相互协调运行的
系统发生是指生物形成或进化的历史。系统发生学研究物种之间的进化关系,其结果往往是以系统发生树表示。系统发生树是描述物种进化顺序和进化关系的一种拓扑结构。一个可靠
近几年来,虚拟现实技术的应用与研究得到了迅速的发展,在许多领域都具有广泛的应用前景,虚拟现实技术日渐成为计算机应用技术发展的主要研究方向之一。通常传统的校园三维立体图
GIS数据庞大,地形特征多样化,地理要素空间关系复杂,为系统的建模带来很大困难。UML作为面向对象技术领域内占主导地位的标准建模语言,具有丰富的语义和富有表现力的语法,而没有破
规划识别是人工智能中一个活跃的研究领域。自从Schmidt, Sridharan和Goodson在1978年第一次将规划识别作为一个研究问题提出后,有越来越多的研究者加入到这一领域中来。最为
随着计算机网络以及多媒体技术的飞速发展,结合计算机网络和多媒体技术的VoD(Video-On-Demand,视频点播)也得到了迅猛的发展。视频点播系统具有较高的实际应用价值和非常广阔的
软件因编码开发过程中使用了不安全的代码,而导致许多成因及类型不同的漏洞,分析及预防这些漏洞可以有效的维护系统的安全。因此针对这些漏洞,安全研究者们提出了许多发掘的
三维地形可视化在GIS、虚拟现实、飞行模拟等领域中有着广泛而重要的应用。由于地形具有海量数据的特征,基于当前的计算机图形硬件系统,要实现既具有较高帧率又能保持较好视觉
工作流(Workflow)技术通过计算机自动执行组织机构中的部分或全部业务流程,显著提高了业务流程处理的性能和效率。工作流系统中的所有信息都是通过分布式环境或网络传输,不可避
微机电技术、计算技术、无线通信和网络等技术的快速发展孕育了无线传感器网络。无线传感器网络是由部署在监测区域内大量的廉价微型传感器节点组成,通过无线通信方式形成的一