【摘 要】
:
互联网的快速发展使网络上的各种信息呈现出快速增长的趋势。如何从浩瀚的互联网文本中获取有效信息、分析网页数据之间的关联性等,是自然语言处理领域的一项挑战。网页导航
论文部分内容阅读
互联网的快速发展使网络上的各种信息呈现出快速增长的趋势。如何从浩瀚的互联网文本中获取有效信息、分析网页数据之间的关联性等,是自然语言处理领域的一项挑战。网页导航、主题信息、超链接信息、版权信息等构成一个网页,其中除了网页正文信息外,其他的信息对于研究人员来说都属于噪音信息,这些噪音信息会对Web信息检索,网页分类等研究产生了不利的影响。为了使自然语言处理技术更好地应用到网页信息的研究中,提高对网页正文的处理能力,同时降低网页去噪领域对于网页模板的依赖性,本文提出了一种基于网页标签位置特征与文本特征相结合的网页去噪方法。该方法将HTML网页映射为相应的DOM树,在分析DOM树结构的基础上,抽取其中每一个标签节点的位置特征以及文本特征,同时考虑正文与标题的语义相似性,将这些DOM树节点在网页中所属的块分为正文节点和噪音节点,最后将它们表示为样本数据,运用机器学习中的分类方法进行分类实验。该方法实现简单且对于网页的模板依赖较小,具有一定的通用性。实验选取了决策树、朴素贝叶斯和支持向量机三种分类方法,通过对比实验验证了方法的有效性,同时实验还获得了较高的准确度,表明该方法能够较为精确地抽取出正文信息,去除网页噪音信息。最后,对实验结果进行了详细分析与讨论,总结导致误分类的原因。同时,通过特征选择实验将所选特征对于结果的贡献度及该特征的时间复杂度进行对比分析,论证特征选择对于模型训练精度和效率的重要性。
其他文献
为了适应互联网从有线网向无线网过渡,Intel适时推出了Atom处理器,同时发起Moblin项目,为Atom定制了MIDLinux。互联网与多媒体的紧密结合使得MIDLinux必须提供比传统Linux更加强
微粒群算法是一种模拟鸟类群体行为的随机型优化方法,由于其结构简单、收敛速度快和其本身容易实现的特点,因此在短短几年时间内,便获得了很大的发展,并在一些领域得到了成功
服务聚合技术在复杂异构的网络环境下为快速构建新程序的应用提供帮助,改变了传统的用户使用网络服务的方式。面对当前海量的互联网资源,虽然传统的用户使用服务的过程在服务
现实世界中,约束优化问题广泛存在于科学、工程、经济、国防等各个领域,随着优化问题复杂性的增加,传统确定性方法存在一定的局限性,为此寻求更有效的方法成为人们探索的热点
近年来,超分辨率图像复原技术在图像处理和计算机视觉领域逐渐成为热点研究方向之一。这一课题在安全监控、卫星遥感、医学影像、航空航天以及流媒体等领域都具有广阔的应用
MPI群集通信中的多对多通信在并行计算中有着大量而且重要的应用,例如在FFT和矩阵的运算中。多对多通信性能的优劣对于并行计算的性能有着很大的影响。随着机群系统广泛应用
数据仓库和商业智能的作用在于为业务人员提供定制操作性和战略性业务决策所需的信息和工具,联机分析处理(OLAP)是数据仓库的主要应用之一。ROLAP是联机分析处理(OLAP)中使用
随着计算机网络技术的迅猛发展,互联网(Internet)已经成为人类社会重要的信息基础设施。传统网络服务如今越来越难以满足人们对信息业务的需求,以视频会议、视频点播、远程教育
通信技术的快速发展,通信网络规模的愈加庞大,结构的愈加复杂,给网络的运行维护造成了许多困难,增加了网络运维的工作量和网络运行中发现故障、确定故障以及处理故障难度,影
随着计算机、互联网以及移动通信技术的迅猛发展,互联网正逐步走出其原有的军事、科研、教育领域,深入到人们的日常生活工作当中。从技术的角度来看,网络技术的发展需要相应