基于Hadoop的网页正文提取系统的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:r57014848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,网络上的信息呈爆炸式增长。据权威互联网资讯公司Netcraft的统计数据显示,截止2014年2月,全球有效在线网站约有920,102,079个。按每个网站拥有1000个网页计算,全球的网页数目将达9000多亿个。在中国,Web InfoMall作为一个历史网页的存储系统,目前也已经存储了从2001年至今的中国互联网上近90亿网页,并且数据量以每月3000万的速度增长。面对这海量的网页信息,搜索引擎已经成为人们日常生活中不可或缺的获取信息的工具。但是,互联网上的原始网页不仅包含了有价值的正文内容,还包括导航、相关内容链接、广告、版权等噪音信息,另外还包含了HTML标签、脚本语言和CSS样式等无效信息。这些冗余的信息大大降低了搜索引擎的效率和准确度。因此,基于海量网页正文提取技术的研究就成为一个备受关注的课题。  目前,国内外关于网页正文提取的研究主要是基于机器学习或模板检测的方法。本文以网页之间的结构、风格和文本特征为基础,融合机器学习和模板检测的方法,有效地提取网页中的正文信息。具体来讲,本文的研究工作主要包括以下几个方面:  1.本文对基于不同机器学习模型的正文提取方法进行了分析和评估。  2.本文提出了一种新的基于信息熵的模板检测算法。  3.本文提出了融合机器学习和模板检测的正文提取框架。  4.本文设计与实现了基于Hadoop的网页正文提取系统,并运用在基于Web InfoMall的历史新闻事件摘要系统中。  
其他文献
该文的工作便是基于生物特征识别(Biometrics)自动掌纹诊病系统中一个非常重要的模块——掌纹纹线特征提取.该文提出的基于高斯滤波的多方向掌纹纹线提取算法(MOGF算法)便能
面向对象技术是当前软件开发的主流技术,UML已成为面向对象事实上的工业标准;ITU-T制定的SDL是一种应用较为广泛的形式规范语言.为了有效地结合面向对象技术和形式化方法各自
软件复用技术已成为当前研究热点,框架作为一种重要的面向对象软件复用技术,得到了越来越多的重视;尤其是针对于特定行业领域的应用框架技术,已经成为当前的研究重点与发展趋
随着网络技术和网络规模的快速发展,特别是Internet大范围的开放以及金融领域网络的接入,在我们享受如今的信息技术带来的种种便利的同时,也遭受着黑客的攻击.尽管近年来网络
Java 2企业版(J2EE)是Sun提供的一个标准的企业应用开发平台,它为我们开发企业Web应用提供了丰富的技术选择.然而,一个高质量的应用有赖于设计良好的体系架构的支持.如何正确
随着因特网的不断发展,数字图书馆已成为人们获取信息的主要来源,尤其在经常查找某个感兴趣的科学技术研究主题时,数字图书馆更是获取文献资源必不可少途径.随着数字图书馆海
在计算机发展进入了网络计算的新阶段中,分布式系统已得到了越来越广泛的研究和应用.由于分布式系统的并行性降低了处理的瓶颈,提供了更好的性能价格比,且具有在系统出现故障
近年来,在许多虚拟现实系统中需要动态仿真水流运动,为了增加系统的真实感,就要正确地对水流进行仿真,其关键是建立恰当的模型和采用适当的渲染算法。许多现有的流体模型只能单独
相机参数标定是基于图像的三维模型重建中的关键步骤,提取标定点是准确完成相机参数标定的必要前提,而棋盘格标定板在三维重建中的应用最为广泛。为了完成棋盘格角点的提取,本文
电视发射合作为国家宣传阵地的前沿,担负着极其重要的电视发射任务,其不仅仅要保证发射信号的质量,同时维持播出信号的可靠性和稳定性也是非常重要的.这样就不但要求输入信号