论文部分内容阅读
Web技术的革新使其逐渐成为网络内容生产和消费的平台,互联网上充斥着无数以网页形式存在的信息源,随着搜索引擎、网络监控和新闻推送等应用和研究工作的深入发展,使得互联网新闻文本采集成为国内外相关人士研究的热点。Web页面中不仅包含用户关注的正文内容,还包含大量噪声信息,如广告、导航和相关推荐信息等,使得智能化提取网页正文文本成为新闻文本采集的难题之一。传统的基于模版的网页正文提取不仅需要人工的配置各网站的解析模版,而且模版不能实时的适应网页结构的变化,使得后期维护成本较大。Web网页的异构特点对现有的基于规则学习的包装器网页解析技术也提出了新的挑战。本文将着重对新闻网页正文的智能化解析技术展开研究,结合新闻网页结构特点、新闻文本标签特点以及Web新闻文本采集的需求,提出能够智能适应网页结构变化和通用于各门户新闻网页的正文提取方法。本文主要贡献如下:(1)提出基于文本标签特征挖掘的网页正文提取方法。该方法主要挖掘网页树结构特性、正文标签的中心性、正文标签连续性、正文标签层次性和Html修饰标签特征等特点,运用层次聚类算法对标签进行聚类,对标签簇进行权值计算及经验性调整确定最终的网页正文标签簇,然后为实现新闻文本采集过程中尽可能多的采集新闻网页的文本信息,在文本标签特征挖掘的网页正文提取方法中增加一种适用于新闻文本采集的非新闻网页自识别方法:最后再通过正文标签簇提取网页正文。(2)提出基于智能模版的新闻网页正文提取方法。该方法避免人工配置网页解析模版的过程,而是根据各个门户新闻网页结构的特点,运用上文文本标签特征挖掘方法对站内大量新闻网页进行特征学习,进而自动学习出网页解析模版参数,最后根据模版信息对该网站内网页进行正文提取。综上所述,运用实际网页对本文提出的网页正文提取方法进行实验,实验结果不仅验证了本文提出的方法在Web新闻文本采集中的可行性和高准确率,也验证了本文方法在网页正文提取方面的通用性和智能化。