论文部分内容阅读
随着互联网技术的高速发展,网络上的信息呈爆炸式增长。据权威互联网资讯公司Netcraft的统计数据显示,截止2014年2月,全球有效在线网站约有920,102,079个。按每个网站拥有1000个网页计算,全球的网页数目将达9000多亿个。在中国,Web InfoMall作为一个历史网页的存储系统,目前也已经存储了从2001年至今的中国互联网上近90亿网页,并且数据量以每月3000万的速度增长。面对这海量的网页信息,搜索引擎已经成为人们日常生活中不可或缺的获取信息的工具。但是,互联网上的原始网页不仅包含了有价值的正文内容,还包括导航、相关内容链接、广告、版权等噪音信息,另外还包含了HTML标签、脚本语言和CSS样式等无效信息。这些冗余的信息大大降低了搜索引擎的效率和准确度。因此,基于海量网页正文提取技术的研究就成为一个备受关注的课题。 目前,国内外关于网页正文提取的研究主要是基于机器学习或模板检测的方法。本文以网页之间的结构、风格和文本特征为基础,融合机器学习和模板检测的方法,有效地提取网页中的正文信息。具体来讲,本文的研究工作主要包括以下几个方面: 1.本文对基于不同机器学习模型的正文提取方法进行了分析和评估。 2.本文提出了一种新的基于信息熵的模板检测算法。 3.本文提出了融合机器学习和模板检测的正文提取框架。 4.本文设计与实现了基于Hadoop的网页正文提取系统,并运用在基于Web InfoMall的历史新闻事件摘要系统中。