智能Web新闻文本采集方法研究

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:winston_he
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web技术的革新使其逐渐成为网络内容生产和消费的平台,互联网上充斥着无数以网页形式存在的信息源,随着搜索引擎、网络监控和新闻推送等应用和研究工作的深入发展,使得互联网新闻文本采集成为国内外相关人士研究的热点。Web页面中不仅包含用户关注的正文内容,还包含大量噪声信息,如广告、导航和相关推荐信息等,使得智能化提取网页正文文本成为新闻文本采集的难题之一。传统的基于模版的网页正文提取不仅需要人工的配置各网站的解析模版,而且模版不能实时的适应网页结构的变化,使得后期维护成本较大。Web网页的异构特点对现有的基于规则学习的包装器网页解析技术也提出了新的挑战。本文将着重对新闻网页正文的智能化解析技术展开研究,结合新闻网页结构特点、新闻文本标签特点以及Web新闻文本采集的需求,提出能够智能适应网页结构变化和通用于各门户新闻网页的正文提取方法。本文主要贡献如下:(1)提出基于文本标签特征挖掘的网页正文提取方法。该方法主要挖掘网页树结构特性、正文标签的中心性、正文标签连续性、正文标签层次性和Html修饰标签特征等特点,运用层次聚类算法对标签进行聚类,对标签簇进行权值计算及经验性调整确定最终的网页正文标签簇,然后为实现新闻文本采集过程中尽可能多的采集新闻网页的文本信息,在文本标签特征挖掘的网页正文提取方法中增加一种适用于新闻文本采集的非新闻网页自识别方法:最后再通过正文标签簇提取网页正文。(2)提出基于智能模版的新闻网页正文提取方法。该方法避免人工配置网页解析模版的过程,而是根据各个门户新闻网页结构的特点,运用上文文本标签特征挖掘方法对站内大量新闻网页进行特征学习,进而自动学习出网页解析模版参数,最后根据模版信息对该网站内网页进行正文提取。综上所述,运用实际网页对本文提出的网页正文提取方法进行实验,实验结果不仅验证了本文提出的方法在Web新闻文本采集中的可行性和高准确率,也验证了本文方法在网页正文提取方面的通用性和智能化。
其他文献
下一代网络(NGN)和物联网都体现着数据融合。数据融合近些年发展迅速,在解决跟踪、探测、管理和目标识别等方面凸显优势,数掘融合在许多领域的研究和应用刚刚起步,有广阔的发展
RSS是Really Simple Syndication(简易信息聚合)的简称,是一种遵守XML规则的标记语言。通过RSS发布信息,可以使人们高效地获取信息,并且可以使用户在获取信息时不受各种垃圾
随着现代通信技术的飞速发展,信息安全技术也在不断地完善,信息隐藏作为一种新的信息安全传输方法,近年来已成为研究热点。由于Turbo码在接近Shannon极限的低信噪比下仍能获
光反馈自混合干涉效应是指激光器的输出光被外部物体反射或散射后,其中一部分光被反馈回激光器的谐振腔,反馈光携带了外部物体的信息,与腔内光相混合后,调制激光器输出功率的
微地震监测技术在油气藏资源开发中发挥着重要的作用。微地震监测技术通过对已知观测数据的分析,对微地震事件进行定位,用以分析地下的形态结构或指导油气藏开发。微地震定位技
随着雷达技术的发展,由于其回波信号的数据量大、数据率高并且对存储的时间要求长,这就对作为其重要部分的存储系统提出了大容量、高数据率的要求。本文针对此要求,采用了SAR
分布式仿真是当前系统仿真的研究热点,采用高层体系结构(High Level Architecture,HLA)标准协议可以将仿真的功能实现、运行管理以及底层通信分离,为仿真系统提供高度的互操
随着现代计算机技术和互联网技术的发展,多媒体数字作品的获取、复制和传播变得越来越容易,这也使得多媒体数字作品的版权日益受到严重威胁,极大地损害了作品所有者的经济利益,由
近年来,互联网与社会经济发展和人们生活的关系越来越密切。计算机和网络已经成为社会不可或缺的重要部分,而互联网的安全问题也随之而来。其中,网络蠕虫是最大的安全隐患之
从1984年CCITT发布第一个视频编码标准H.120以来,视频压缩编码技术获得了迅猛的发展,一系列视频编码标准陆续公布,从MPEG-1到MPEG-4,从H.263到H.264,这些标准的发布极大推动