网页去重相关论文
搜索引擎对互联网上的网页进行检索,由于存在大量的重复网页,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源,需要去掉这些......
传统的Simhash 网页去重是基于词频文档逆频率(TF-IDF)提取特征词的算法,存在会将部分停用词权重放大、文章长度影响特征词的权重......
自互联网诞生以来,网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具,但是传统的搜索引擎利用网络爬虫从互......
海量Web信息采集是播存结构源端的一个重要课题。随着Web信息的爆炸性增长,传统的Web信息采集无针对性,页面失效率高,不能满足人们日......
随着网络信息呈指数级的不断膨胀,如何从这个信息的海洋快速获得真正有价值的信息变得至关重要。搜索引擎应运而生,提供了在互联网......
去除重复网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了一种根据词频统计的......
研究表明,近似镜像网页数占总网页数的比例高达29%,而完全相同的页面大约占22%。根据CNNIC 2005年7月发布的统计报告,用户在回答“......
近年来,随着网络的大量普及以及各种技术的快速发展,互联网上的信息呈爆炸性增长。人们要在网上快速查找自己想要的资料越来越困难,搜......
搜索引擎为用户进行信息检索提供了很大的便利,但是研究表明,搜索引擎的资源覆盖率还是不能满足需求,而且在准确率方面也有待提高......
互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加,为了用户能方便的访问它们,搜索引擎应运......
当今社会,互联网中所包含的种类繁多内容丰富的知识资源,为我们日常学习和工作中面对问题时寻求帮助和获取信息提供了很大的方便。......
伴随着互联网技术的迅猛发展,全球每天产生的数据量呈爆炸式增长,相关的大数据关键技术也得到大力发展,其中的云计算技术已经发展......
提出一种在内网和外网间处于物理隔离状态下防止信息重复采集的电子政务二次信息采集交互系统原型.外网用户能够从客户端软件中二......
针对元搜索结果中的网页重复问题,把基于最长公共子序列(Longest Common Subsequence,简称LCS)的网页去重方法应用到元搜索引擎的......
在互联网发展的初期,网页数量相对较少,用户查找信息比较容易。伴随着互联网爆炸性的发展,网络用户想找到所需的信息简直如同大海......
互联网上的资料浩如烟海,网络信息呈指数级增长。一次检索后的平均返回结果数量依然巨大,传统的搜索引擎动辄返回几万、几十万篇文档......
贵州农经网,作为贵州省委、省政府为促进农业增效,促进农民增收而建立的农村综合经济信息网,始终为广大“三农”提供政策、科技、......
随着人们对突发事件新闻的日益关注,需要对其进行有效地分类、索引、加工、处理.参考传统文本处理技术,结合网页结构特征和特定领......
目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判.本文提出了一种改进的算法,核心思想是......
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎......
网页去重处理是提高检索质量的有效逢径。本文给出了一个基于特征码的网页去重算法.介绍了算法的具体实现步骤,采用二叉排序树实现......
提出一种在内网和外网间处于物理隔离状态下防止信息重复采集的电子政务二次信息采集交互系统原型.外网用户能够从客户端软件中二......
目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判。本文提出了一种改进的算法,核心思想是对......
通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行......
本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。......
随着互联网技术的高速发展,网络中网站的数量成倍增长,这些网站提供了大量的信息,但不同的网站中存在着大量的重复信息,这些信息被搜索......
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于主题的去重方法。该方法......
互联网上大量重复网页的存在,严重地影响信息的检索质量.因此提出了一种基于特征码散列的网页去重算法,利用特征码对特征语句集散列以......
去除重复网页是网页爬取过程中必要的步骤,目前人们对网页去重方法的研究集中在基于网页内容相似的去重算法本身的准确性和算法复......
网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提......
摘要:元搜索引擎通过调用多个独立搜索引擎,从而提高了检索结果的覆盖面。本文简述了元搜索引擎的运作原理,研究了元搜索引擎的核心技......
针对专业搜索引擎的特点,对基于词频统计的网页去重算法进行了改进。改进后形成的基于专业搜索引擎的网页去重算法通过两步进行:首先......
随着网络技术的迅速发展和互联网络规模的不断扩大,人们能够获得的新闻信息资源也日益丰富。应用搜索引擎进行检索,经常会得到内容......
随着互联网的快速发展与搜索引擎的广泛使用,网页数据已经成为各种应用与研究的重要数据源之一。然而由于网页的特殊性,它所包含的信......
伴随互联网所包含网页数目的剧增,转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一,网页去重技术已经成为网页信息处......
互联网的快速发展使得人们的阅读模式发生了转变,传统的阅读模式如报纸、杂志已不再是主流,更多的人倾向于更加便捷的互联网阅读。......
学位
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给......
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clust......
日常生活中,人物信息是人们最为关注的信息类型之一,有着重要的社会价值。传统的人物传记虽然提供了丰富的人物信息,但受材料和人......
针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提......
期刊
针对网页内容相似重复的特点,提出了一种改进算法对网页进行去重处理。该方法能够有效地对网页进行去重,并能对网页信息进行冗余识......
传统的搜索引擎存在诸多问题:定位不准确、检索结果不专业、排序不合理等。为了解决传统搜索引擎所面临的问题,面向特定主题的垂直......
提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为......
针对大规模信息采集,运用Bloom Filter及其改进算法,在误差允许的条件下,通过URL散列运算可以有效地对同源网页进行去重。实践证明,通......
摘要:网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重......