校园网搜索引擎中网页去重技术的研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:skylfy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着校园网建设的迅速发展,校园网信息资源迅速增加,这使得全校师生迅速定位有价值的信息难度较大,浪费时间而且效率低下。基于校园网自身的特点,发展较成熟的通用搜索引擎不能完全适用于校园网,并且大量转载网页的存在造成检索结果重复页过多。通过分析校园网网页的特点和现有去重技术,以解决校园网搜索引擎检索结果重复网页过多问题,针对不同类型的重复网页,采用在索引和实时检索时分别去重的策略,构建了校园网搜索引擎,完成了如下几项工作:第一,对网页去重的准备工作进行了研究和分析。首先,分析网页噪音产生的原因、噪音的定义及类型,采用合并内容块技术对原始网页集进行噪音去除和正文抽取,以获得网页的正文内容。其次,研究中文分词技术,对比现有中文分词技术,最终采用庖丁解牛分词软件,对Nutch进行二次开发——修改Nutch源码,实现中文分词。第二,对索引时网页去重算法进行研究和改进。分析现有算法,针对完全重复或部分重复的网页,采用最长段落签名的网页去重算法。首先对整篇文档签名后去重,其次对去重过滤后的文档分段,对分好的段落排序,再取前N个段落对其进行指纹签名,将其作为文档的特征,当这两个文档中相同段落数超过系统给定的一个阈值时,就判定这两个文档为相互重复的文档。提取前N段并进行指纹排序大大降低了计算的复杂度。实验证明,该方法有较高的去重准确率。第三,针对网页转载时对原网页进行微小修改而产生的重复网页,在实时检索时采用优化傅立叶变换去重算法。该算法把每篇文档的每个词映射成一个数值Fingerprint,那么每篇文档就可以表示成一个离散数值序列。对该数值序列进行傅立叶变换得到傅立叶系数,比较系数的前若干项即可大致比较出两个数列的相似性。实验证明,基于优化傅立叶变换的去重算法能够在网页发生修改的时候兼顾查全率和去重率。以Nutch作为系统的开发工具,通过对Nutch源码进行修改实现索引时的去重算法,并采用插件形式实现检索时的网页去重算法,在Nutch的基础上设计实现校园网搜索引擎,并详细说明了校园网搜索引擎系统开发过程和方法。最后对提出的去重策略进行实验性能测试,采用Nutch爬取校园网网页作为实验的数据集,结果表明将两种算法结合的去重策略提高了搜索结果的精确度和去重的准确率,并且搭建的校园网搜索引擎系统能够有效的、正常的运行。
其他文献
随着近些年计算机和计算机网络规模的迅猛发展与普及,互联互通科学技术的进步,网络终端的成本逐步下降,而计算能力、存储能力和网络带宽迅速增长,为对等网络(Peer-to-Peer,简称P2P)
随着“云计算”和“物联网”概念的出现和应用,网络计算技术不断向物理世界延伸和拓展。这些具有规模化网络资源和多样化服务特点的互联网新型应用的出现,要求必须研究新型网络
学位
P2P网络的应用越来越多地受到了人们的关注。现在,P2P网络面临的关键问题就是如何准确快速并且全面地定位共享资源。不同的P2P网络采用的拓扑结构也各不相同,它们的查询效率也
在应急响应系统中,应急资源推荐机制服务于指挥中心领导,决策资源的需求。它救援了资源分配和调度等后续工作的质量,因此,针对各类突发事件,资源推荐必须提供准确、无歧义的所需资
医疗诊断与评价是一个非常复杂的过程,医生对体征异常的病人通常给出的是一系列的检查数据。这些数据的区分度不高,所以在诊断与评价的时候有很大的难度,这也是为什么人们倾向于专家坐诊的原因。然而医院的检查数据不能完全准确的反映病人的情况。各种数据之间的依赖性强,还有就是医生给出的指标众多处理起来复杂,基于这样的原因建立一个医疗诊断与评价模型。此模型具有判断的客观性、处理相互作用指标的信息功能。把解决医学中
目前,逆向工程已经作为一种先进的设计方法被引入到新产品的设计开发中,并得到越来越多的重视。对于逆向工程的研究基本集中在由实物到曲面重构的过程,其中曲而重建是逆向工
本文以供应链管理软件中的协同采购管理系统的研究开发为应用背景,通过引入工作流框架设计理念、领域化设计思想、多Agent技术、合同网协商机制以及Petri网过程协同方法,试图构
近年来,WMN(Wireless Mesh Network)在计算机无线网络领域已成为一个新的研究热点,其主要目的是解决网络末端接入问题,使得用户端获得性能更为高效的网络。在某种程度上,我们可以
现在社会,罹患心血管疾病的人口越来越多,其中包括大量的心脏肥大,心脏供血不足的患者,究其原因都是心肌在物理上发生了病变导致心脏在供血机能上的紊乱。而心脏病变的直接表