基于重复串的STC网页去重算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户：dxc1989120

【摘要】

：

随着网络信息呈指数级的不断膨胀,如何从这个信息的海洋快速获得真正有价值的信息变得至关重要。搜索引擎应运而生,提供了在互联网上搜索信息的功能。然而在搜索引擎返回的检

【作者】

：

殷波

【机构】

：

桂林电子科技大学

【出处】

：

桂林电子科技大学

【发表日期】

：

2008年期

【关键词】

：

网页去重搜索引擎 STC算法重复序列数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息呈指数级的不断膨胀,如何从这个信息的海洋快速获得真正有价值的信息变得至关重要。搜索引擎应运而生,提供了在互联网上搜索信息的功能。然而在搜索引擎返回的检索结果中,存在大量的重复网页,其中大部分网页主要来自网站之间的转载。这些冗余网页既占用了网络带宽,又浪费存储资源,如何有效消除这些重复网页,提高检索的准确率,节省用户的时间和精力,提高用户满意度,成为当今搜索引擎领域中一个重要的研究方向。因此,网页去重工作有着十分重要的研究意义。　　本文在深入学习数据挖掘知识的基础上,对搜索引擎工作原理进行剖析,对现有去重算法进行了分析。重点对STC算法和重复序列算法进行了详细比较,对两种算法进行性能测试后,分析二者利弊,提出一种基于重复串的STC改进算法,核心思想是对字符重复串进行抽取,使用重复串作为短语标引生成后缀树,并映射生成倒排索引进行STC算法去重。实验证实了改进算法有着良好的准确率和召回率,并有着优良的时间和空间特性。　　为了验证所提出算法的有效性并比较其去重效果,本文开发了一个搜索引擎实验原型系统,完成了该系统的总体设计和各个模块的设计工作,通过该系统实现了算法的改进,并验证了其有效性。　　在实验过程中,首先对算法进行了编辑测试语料的模拟实验,将一篇文档内容进行标题和正文的删除、修改后生成修改文档。使用改进算法将修改文档与原文进行相似度判断。结果表明,算法能有效判定文档相似度。然后在实现了该算法的搜索引擎实验原型系统中,进行互联网实测。实验结果表明,本文的改进算法具有较高的召回率、去重准确率和较低的漏删率及误删率。　　本文的研究成果和搜索引擎实验原型系统在信息急剧膨胀的时代,具有较高的应用价值和推广意义,同时也具有良好的社会效益和经济效益。

其他文献

XML数据的关系化存储及其查询分析

XML正迅速取代HTML成为Web上数据表示、集成和交换的标准。与HTML相比,XML简单、自我描述,实现了内容、结构和表现三者的分离,更适合于数据表示和交换。近年来,XML技术在各种

学位

XML数据关系化存储查询分析模式映射

GPU加速的大规模体绘制研究

三维可视化在医学辅助诊断、手术仿真、医疗教学等方面应用广泛,GPU使其大范围应用成为可能。结合GPU的发展趋势,本文对三维可视化算法中GPU加速的直接体绘制算法进行深入研

学位

体绘制纹理压缩三维可视化算法GPU加速无损图像质量

基于Agent的工作流管理系统的研究

工作流管理技术一直是计算机研究和应用领域的一个热点，它是实现企业业务过程重组、过程管理和过程自动化的核心技术。工作流管理系统的主要目标是通过调度和分配有关的信息资源与人力资源来协调业务过程中的各个环节，以促使业务目标的高效实现。虽然从上个世纪八十年代以来工作流技术在理论研究和实践经验方面已经取得了很多成果，但随着应用的逐步深入，工作流技术还存在很多不够成熟的地方和瓶颈问题需要进一步研究和发展，这对

学位

工作流工作流管理系统工作流管理联盟agent移动agent

基于重复串的STC网页去重算法研究

其他学术论文