网页去重相关硕士博士期刊学术论文

网页去重相关论文

新闻垂直搜索引擎中文分词与网页去重的应用与研究

自互联网诞生以来，网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具，但是传统的搜索引擎利用网络爬虫从互......

学位

垂直搜索引擎网络爬虫网页抽取中文分词网页去重

主题Web信息采集系统的研究与设计

海量Web信息采集是播存结构源端的一个重要课题。随着Web信息的爆炸性增长，传统的Web信息采集无针对性，页面失效率高，不能满足人们日......

学位

Web信息采集系统 UCL标引技术网页去重 FocusedSpider RSS技术

基于内存计算的文本聚类算法的研究与实现

新闻聚类系统诞生于互联网的浪潮中,是个性化新闻推荐引擎的核心部分,聚类的结果直接影响到推荐的效果。一个完整的新闻聚类系统包......

学位

新闻聚类网络爬虫网页去重正文提取分布式系统 K-Means算法

基于重复串的STC网页去重算法研究

随着网络信息呈指数级的不断膨胀,如何从这个信息的海洋快速获得真正有价值的信息变得至关重要。搜索引擎应运而生,提供了在互联网......

学位

网页去重搜索引擎 STC算法重复序列数据挖掘

基于内容的跨语言网页去重研究

去除重复网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析，提出了一种根据词频统计的......

学位

网页去重特征词特征句跨语言搜索引擎网页识别

基于正文结构和长句提取的网页去重研究

研究表明,近似镜像网页数占总网页数的比例高达29%,而完全相同的页面大约占22%。根据CNNIC 2005年7月发布的统计报告,用户在回答“......

学位

网页去重正文结构树长句提取层次指纹

元搜索引擎中检索结果优化策略的研究

近年来，随着网络的大量普及以及各种技术的快速发展，互联网上的信息呈爆炸性增长。人们要在网上快速查找自己想要的资料越来越困难，搜......

学位

元搜索引擎成员搜索引擎结果排序网页去重优化策略

元搜索引擎的结果合成算法研究

搜索引擎为用户进行信息检索提供了很大的便利,但是研究表明,搜索引擎的资源覆盖率还是不能满足需求,而且在准确率方面也有待提高......

学位

元搜索引擎网页去重结果排序查询相似度

面向网页去看的特征提取与重复模式发现

互联网的快速发展给人们带来了新的获取信息和交流的方式。随着网站和网页数目的不断增加,为了用户能方便的访问它们,搜索引擎应运......

学位

搜索引擎网页去重特征提取层次筛选二叉平衡树

开放域问答系统答案源获取方法研究与实现

当今社会,互联网中所包含的种类繁多内容丰富的知识资源,为我们日常学习和工作中面对问题时寻求帮助和获取信息提供了很大的方便。......

学位

自动问答系统答案源获取网络爬虫网页去重信息提取 DOM树

基于Nutch的分布式爬虫系统的研究与优化

伴随着互联网技术的迅猛发展,全球每天产生的数据量呈爆炸式增长,相关的大数据关键技术也得到大力发展,其中的云计算技术已经发展......

学位

分布式爬虫系统 Nutch 网页去重网页排序文档指纹

专业搜索引擎中网页去重技术研究

互联网上的资料浩如烟海，网络信息呈指数级增长。一次检索后的平均返回结果数量依然巨大，传统的搜索引擎动辄返回几万、几十万篇文档......

学位

复制检测网页去重搜索引擎网络信息

贵州省涉农网络信息抽取系统的研究与应用

贵州农经网,作为贵州省委、省政府为促进农业增效,促进农民增收而建立的农村综合经济信息网,始终为广大“三农”提供政策、科技、......

期刊

网页分析数据挖掘信息检索文本抓取网页去重 weka

突发事件新闻网页的去重方法研究

随着人们对突发事件新闻的日益关注,需要对其进行有效地分类、索引、加工、处理.参考传统文本处理技术,结合网页结构特征和特定领......

期刊

突发事件新闻权值计算网页去重

网页去重技术

以去除冗余网页为目标,分析搜索引擎工作原理,讨论现有的去重算法,并提出基于Suffix Tree的倒排索引改进算法.实验表明该算法有着......

期刊

数据挖掘搜索引擎网页去重

一种基于重复串的STC改进算法

目前文本去重算法主要以基于信息指纹去重、特征码去重为主,用上述算法去重时容易产生误判.本文提出了一种改进的算法,核心思想是......

期刊

网页去重 STC算法重复串

基于散列思想的网页去重系统

信息时代的到来,使计算机网络的使用频率越来越高,互联网上的信息也越来越多。广大Internet用户在使用搜索引擎系统时,常常会发现......

期刊

网页去重散列

基于特征码的网页去重

网页去重处理是提高检索质量的有效逢径。本文给出了一个基于特征码的网页去重算法.介绍了算法的具体实现步骤，采用二叉排序树实现......

期刊

网页去重网页特征码二叉排序树 Duplicated webpages deletion feature code of webpages binary

二次信息采集系统及信息指纹HashTrie研究

提出一种在内网和外网间处于物理隔离状态下防止信息重复采集的电子政务二次信息采集交互系统原型.外网用户能够从客户端软件中二......

期刊

物理隔离二次抓取网页去重信息指纹 HashTrie physical isolation twice-gathering duplicated web p

网页去重技术问题研究

本文提出了一种基于关键词提取的网页去重算法。该算法考虑了文本的内容信息，其基本思路是:首先解析网页，提取每篇网页文档的标题关......

期刊

互联网关键词提取网页去重

一种去除重复URL的算法

通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析，结合Dynamic Bloom Filter算法，采用动态数组对集合元素进行......

期刊

布隆过滤器散列函数 URL 网页去重 Bloom filter Hash function URL URL filter

基于特征码的网页去重算法研究

本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。......

期刊

数据挖掘搜索引擎网页去重

网页去重方法研究

随着互联网技术的高速发展，网络中网站的数量成倍增长，这些网站提供了大量的信息，但不同的网站中存在着大量的重复信息，这些信息被搜索......

期刊

信息抽取网页去重 MD5 information extraction deletion of duplicated web pages Md5

基于主题的网页去重

搜索引擎返回的重复网页不但浪费了存储资源，而且加重了用户浏览的负担。针对网页重复的特征，提出了一种基于主题的去重方法。该方法......

期刊

组块向量空间网页去重主题 chunk vector space detection and elimination of similar web pa

网页去重在基于Web企业竞争情报平台中的应用与研究

互联网上大量重复网页的存在，严重地影响信息的检索质量．因此提出了一种基于特征码散列的网页去重算法，利用特征码对特征语句集散列以......

期刊

网页去重特征码特征语句集 duplicated Web pages signature signature characteristics of t

一种面向大规模网页去重的三层分布式架构

去除重复网页是网页爬取过程中必要的步骤,目前人们对网页去重方法的研究集中在基于网页内容相似的去重算法本身的准确性和算法复......

期刊

网页去重网络爬虫分布式架构 duplicated web page detection web crawler distribute architect

元搜索引擎优化的研究

摘要：元搜索引擎通过调用多个独立搜索引擎，从而提高了检索结果的覆盖面。本文简述了元搜索引擎的运作原理，研究了元搜索引擎的核心技......

期刊

元搜索引擎成员搜索引擎网页去重结果排序

基于专业搜索引擎的网页去重技术研究

针对专业搜索引擎的特点，对基于词频统计的网页去重算法进行了改进。改进后形成的基于专业搜索引擎的网页去重算法通过两步进行：首先......

期刊

网页去重专业搜索引擎关键词特征向量词频统计 De-Duplication Topic-Specific Search Engine Vector Sp

基于版权信息的新闻网页去重策略研究

随着网络技术的迅速发展和互联网络规模的不断扩大,人们能够获得的新闻信息资源也日益丰富。应用搜索引擎进行检索,经常会得到内容......

期刊

网页去重搜索引擎版权新闻网页模糊匹配 duplicated webpages search engine copyright news webpages

基于关键长句及正文长度预分类的网页去重算法研究

伴随互联网所包含网页数目的剧增，转载现象变得相当普遍。作为提高搜索引擎服务质量的关键问题之一，网页去重技术已经成为网页信息处......

期刊

网页去重关键长句预分类 Web Page Key Long Sentence Preliminary Classification

基于Hadoop的互联网新闻阅读系统的设计与实现

互联网的快速发展使得人们的阅读模式发生了转变,传统的阅读模式如报纸、杂志已不再是主流,更多的人倾向于更加便捷的互联网阅读。......

学位

Hadoop 网页提取网页去重虚词 Bloom Filter

一种基于文本抽取的网页正文去重算法

搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给......

期刊

文本抽取网页特征码二叉排序树网页去重

基于人物角色事件的传记生成方法研究

日常生活中,人物信息是人们最为关注的信息类型之一,有着重要的社会价值。传统的人物传记虽然提供了丰富的人物信息,但受材料和人......

学位

人物传记网页去重事件凝练时序摘要可视化

基于特征串的网页文本并行去重算法

针对海量网页文本去重效率不高问题,提出了一种高效的并行网页去重算法.该算法利用Hadoop框架的Map/Reduce机制,通过对网页文本提......

期刊

搜索引擎特征串网页去重 Simhash Map/Reduce

网页去重的改进算法

针对网页内容相似重复的特点,提出了一种改进算法对网页进行去重处理。该方法能够有效地对网页进行去重,并能对网页信息进行冗余识......

期刊

网页去重特征提取特征表示 blind signal separation（BSS） independent component analysis（ICA）

个性化垂直搜索引擎的研究与实现

传统的搜索引擎存在诸多问题:定位不准确、检索结果不专业、排序不合理等。为了解决传统搜索引擎所面临的问题,面向特定主题的垂直......

学位

垂直搜索引擎主题网络爬虫结构化信息抽取 SVM分类模型 Web标签序列网页排序网页去重

基于HTML标记和长句提取的网页去重算法

提出了一种高效的算法来去除互联网上的重复网页。该算法利用HTML标记过滤网页中的干扰信息,然后提取出能表征一张网页的长句作为......

期刊

网页去重页面去杂长句红黑树 Duplicate web page elimination Page cleanup Long sentence Red-b

基于Bloom Filter的大规模网页去重策略研究

针对大规模信息采集，运用Bloom Filter及其改进算法，在误差允许的条件下，通过URL散列运算可以有效地对同源网页进行去重。实践证明，通......

期刊

布隆过滤器散列函数 URL 网页去重

基于Counting Bloom Filter的海量网页快速去重研究

摘要：网页去重是从给定的大量的数据集合中检测出冗余的网页，然后将冗余的网页从该数据集合中去除的过程，其中基于同源网页的URL去重......

期刊

网页去重 MD5指纹库 Counting Bloom Filter IMP-CBFilter算法

互联网双语资源挖掘关键技术研究

机器翻译、跨语言信息检索等自然语言处理应用对大规模的双语资源都有大量的需求。虽然各国都投入了大量的人力、物力和财力来加强......

学位

双语平行资源网页挖掘双语平行句对网页去重

基于布隆过滤算法的五台山数据分析应用研究

随着互联网的发展,网络信息呈爆炸性增长,其中有很多有用的信息,但是也充斥着许多重复的信息。针对这一问题,提出了一种基于布隆过......

期刊

数据挖掘布隆算法五台山网页去重 data miningbloom algorithmMount Wutaiweb page de-duplication

垂直搜索引擎网络爬虫的研究与设计

近几年来,互联网飞速发展,相关技术和产品日益成熟,并逐渐成为一个开放的全球性资源,它集中了海量的以网页文本、音乐、图片等等形......

学位

垂直搜索引擎网络爬虫博客网页排序网页去重

基于编辑距离的网页去重策略

互联网中存在着大量的重复网页,在进行信息检索或大规模网页采集时,网页去重是提高效率的关键之一。本文在研究＂指纹＂或特征码等网页......

期刊

互联网网页去重指纹编辑距离 Internet Near-replicas Detection Fingerprint Levenshtein Distan

基于Counting Bloom Filter的海量网页快速去重研究

网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,可以有效地减少检索和存储的压......

期刊

网页去重 MD5指纹库 Counting Bloom filter IMP-CM Filter算法

面向分布式的通用网络爬虫系统关键技术研究与实现

随着互联网的飞速发展,网络上的数据呈指数增长。用户获取信息的一个重要途径就是通过搜索引擎,搜索引擎通过抓取全网数据来为用户......

学位

分布式网络爬虫 Kubernetes 时效性调度网页去重

基于Bloom Filter的网页去重算法

现在的互联网中存在网页重复的问题,这些问题将会使数据挖掘,搜索的复杂度加大。现有技术一些不足之处,针对互联网中的重复网页采......

期刊

Bloom filter 网页去重长句 Hash函数

国内网页去重技术研究:现状与总结

针对国内2000-2010年之间有关网页去重技术的研究成果进行计量分析,重点从网页结构、网页特征、网页内容、同源网页、元搜索等方面......

期刊

重复网页同源网页网页去重

基于MD5的网页去重算法的设计与研究

随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去......

期刊

结构化网页 MD5 网页去重去重算法

基于傅立叶变换的网页去重算法

去除重复网页可以提高搜索引擎的搜索精度,减少数据存储空间。目前文本去重算法以关键词去重、语义指纹去重为主,用上述算法进行网......

期刊

网页去重 K-L展开傅立叶变换维数压缩

基于网页文本结构的网页去重

搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态......

期刊

层次指纹文本结构网页去重

看过本文同时还关注