基于标签路径和关键词特征的Web新闻抽取方法研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:angelleosy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与HTML技术的发展,网络新闻成为新闻传播的主要方式,而网页中的导航栏、广告、备案信息等冗余信息却影响了人们对新闻内容的获取。为了让用户可以获得纯净的新闻内容,就需要对网页内容进行信息抽取,即从包含冗余信息的网页中将主要新闻信息如新闻标题,内容等抽取出来。为了实现这一目标,本文设计了一个Web新闻抽取系统,可以从网页中抽取新闻的主要信息并对抽取的新闻进行分类然后存储在数据库中。对于从新闻网页提取内容的问题,本文在已有的基于统计信息的抽取算法基础上设计了一种基于标签路径和关键词特征的抽取算法。该算法主要有三个关键点,一是根据标签路径进行网页分块,实现内容节点的融合,融合后可以减少计算量;二是依据关键词计算主题相关度,新闻内容总是和其标题具有相关性,通过主题相关度可以过滤掉一些噪声节点;三是将图片替换为其上下文的文本然后对图片也计算重要度,该方法并不限定于图片,这里使用的是一种等效替代的思想,音频,视频等无法直接度量重要度的内容都可以采用这种转换为文本的方式去计算重要度。算法的最后通过对每个网页块都计算特征值后,使用支持向量机分类算法去对所有网页块分类,用以识别出所有内容块。基于上述思路,本文设计实现了Web新闻抽取系统。该系统共有八个模块,分别为下载,预处理,特征值计算,节点分类,新闻分类,存储,代理池,日志模块。代理池模块实现了代理的实时获取和管理,并为爬虫提供可用代理;日志模块实现一个可配置的日志组件,记录系统运行状况;下载模块负责网页源文档下载和链接提取;预处理模块对源文档进行节点融合和部分噪声的过滤;特征值计算模块对节点计算其特征值;节点分类模块通过节点特征值对节点进行内容和噪声分类;新闻分类部分实现了对抽取出的新闻进行分类的功能;存储部分将具有类别信息的新闻存入Redis数据库中。系统运行过程中,每次都会记录噪声块的属性,在处理下个新闻网页时就可以先根据记录的属性信息过滤一部分节点。随着系统处理的新闻越来越,对新闻内容的提取准确率也会越来越高。最后,对整个系统进行测试,测试结果显示系统可以稳定运行。
其他文献
进入新世纪之后,信息化战争的要求和民用通信技术的不断迭代使得军用及民用无线电系统得到了前所未有的发展,无线通信设备的种类和数量不断增加,由此带来的天线间的耦合和干扰问题却很难解决。可重构技术在天线小型化、增加信道容量、抗干扰等方面具有很大的优势,而多功能可重构天线将多种可重构模式结合到同一天线中,相比单一功能的可重构天线占用空间更少,适用场景更多,可以实现更加灵活的性能调节。本文重点围绕天线的复合
王维的山水田园诗十分有名,其山水田园诗之中蕴含着一幅幅美丽的静态画。笔者在此文中对王维山水田园诗中静态画面构成方法进行分析,以期对王维的山水田园诗作进行更深层次的解读。
随着目前移动互联网络的快速发展和智能设备的广泛普及,手机逐渐成为人们在互联网中对外交流的重要窗口,移动设备中就产生了大量的敏感数据信息安全问题。面对这些数据信息泄露和被窃取等潜在的风险,如何保障个人相关敏感数据的信息安全是当前迫切需要解决的问题。一般的应用中是直接基于密码技术直接加密的方式进行保密,但这种情况下依旧存在暴露的风险,因此不仅需要保护数据信息不泄露,同时需要保护保密这种行为不被识别。而
伴随着宽带阵列雷达应用的逐渐广泛,在进行宽带阵列信号处理时,必须考虑各个阵列通道间存在的幅频和相频特性的不一致,即通道失配。通道失配的存在会对阵列雷达后续的信号处理算法产生严重影响,降低阵列雷达的测角测距精度、分辨力以及抗干扰能力,进而使宽带阵列雷达的整体性能受到影响。因此,对宽带阵列雷达中的通道失配进行校正就显的格外重要。本文的研究内容如下:首先在分析阵列模型的基础上,探讨了几种通道失配模型的建
随着自动驾驶、机器人、虚拟现实等技术的不断发展,3D视觉技术在计算机视觉领域中得到了越来越多的关注。基于图像的3D视觉是计算机视觉中场景理解的一个重要研究方向,其主要目标是从RGB图像中推断真实世界对象和场景的3D结构及其内容。基于深度学习的语义分割技术具有较好的场景内容解释和理解能力,基于深度学习的双目立体匹配技术可以从一对双目图像中恢复场景的3D信息,较传统算法具有精度高、速度快等优势。随着智
模数转换器(ADC)能将连续模拟信号转化为离散的数字信号,在通信系统中扮演着重要的角色。如今,通信系统对信号处理的要求不断朝高速和高精度方向发展,在众多结构的ADC中,流水线ADC因其同时具备较高速度与精度的特性,被广泛运用于无线通信领域。本文基于东部0.18μm BCD工艺实现了一款14位100MSPS无采样保持结构的流水线ADC。文章首先对流水线ADC的结构原理以及冗余位数字校正算法进行了分析
技术创新是我国经济增长的关键因素,企业环境责任对不同类型的技术创新的影响不同。论文以沪深A股污染类上市企业2010—2018年的数据为研究样本,实证检验企业环境责任对技术创新的影响,并考察儒家文化对研究问题的调节作用。结果表明:企业环境责任可促进技术创新的提升;相对于探索式技术创新,企业环境责任的履行对开发式技术创新的促进作用更加明显;受儒家文化影响越深的企业,环境责任对其技术创新的促进作用更强,
近年来片上系统SoC(System on Chip)设计的集成度和复杂度不断提高,从而对SoC验证技术的要求也随之提高。芯片验证是SoC开发流程中的重要一环,传统的验证方法规范性较差,验证效率低下,使用科学的验证方法提高验证的效率和完备性尤为重要。本文以SoC的整体架构为基础,以提高验证覆盖率和验证效率为目标,基于UVM(Universal Verification Methodology)验证方
随着信息技术的爆发式增长,总线的带宽和速度逐渐成为制约计算机系统发展的关键因素。PCIE(Peripheral Component Interconnect Express)作为第三代高速I/O串行总线,克服了并行总线干扰和同步的问题,它的高速数据传输使其在计算机和通信等领域中有着广泛的发展前景。物理层是PCIE的最底层,媒体访问控制(Media Access Control,MAC)作为物理层的
合成孔径雷达(Synthetic Aperture Radar,SAR)凭借其可以全天时不间断地工作、观测过程中不受气候、光线等影响的优点,在国家防御、军事侦察、林业防护等领域发挥着重要的作用。极化SAR增强了SAR获取目标的性能,其在地物成像时会同时使用多种极化方式,从多个角度获取目标的各种散射性质参数。通过解译分析这些参数,便能获取目标中更多具体的信息。超像素是由图像中特性相似的相邻像素组成的