基于XML元素处理的Web信息抽取研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:danyuhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,Internet已经取代了电视、广播、报纸等传统媒介,成为人们生活中最重要的信息获取手段。互联网上有数以万计的Web页面,这些页面中有海量的信息。人们不断研究如何能从这些Web页面中获取需要的信息,Web信息抽取也就成了一个有重要研究意义的课题。本文首先对现有的Web信息抽取技术进行了研究及分析,总结它们的优缺点,然后在现有技术的改进和整合之上,提出了一种新的基于XML元素处理的Web页面信息抽取方法,并对其进行研究与实现,本文主要工作包括以下三方面:首先,对Web页面的HTML文档进行预处理,并完成了定义系统需要的核心数据结构及函数的工作。在制定Web信息抽取的规则时,将需要进行的操作以及所需变量定义成XML元素,写入XML形式的配置文件。系统运行后通过加载定义好的各种XML元素处理器,采用管道式执行的方式完成Web信息抽取的相关操作。其次,本文根据文档DOM树的结构引入了DOM节点路径权值的概念,并设计了一种基于DOM树节点路径权值计算的算法,生成Web页面主体信息路径。该算法需要计算各子树中非叶节点的路径权值,通过比较,选出其中权值较大的若干节点,这些各层次的节点组成的序列就是信息路径。此外还对抽取结果的数据库集成进行研究。最后,本文对系统的性能进行了测试并对结果进行分析。测试分为两方面:一方面验证了对源HTML文档进行预处理后,系统执行所花费的时间比未进行预处理少,并且分析了Web页面信息抽取的时间复杂度。另一方面通过对各种数据密集型Web页面进行信息抽取测试,结合相关的评价指标进行分析。结果显示,本文研究的方法很有效,有较高的准确率和召回率。
其他文献
随着国内各大医院信息化建设进程的不断发展,各类临床信息系统为医院积累了丰富的临床数据资源。临床数据中所包含的海量医疗活动信息,不仅是医疗、教学、科研的第一手资料,
随着信息技术的提高和互联网飞速发展,企业和个人数据出现爆炸式增长。研究调查预测到2020年全球数据量将达到35ZB。大数据时代已经来临,传统数据存储方式已经无法满足大数据
逆变器在工业、民用领域应用是很广的,作用也很大。它的一个主要的用途是:应用于工业运动控制、节能运行控制,这通过它对交流电动机变频调速实现。另一个是将直流电能转化成交流
如何降低数据的维数而不损失原有数据的内在信息是数据挖掘和机器学习领域中的经典问题,降维是指样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高
随着人口老龄化现象的不断加剧,同时由于家庭和社会的诸多因素,越来越多的老年人不得不选择独居,社会因此给这类人群下了一个新的定义,称作“空巢老人”,指的是那些没有子女
无线传感器网络是由大量节点组成的特殊的无线网络,它实现了复杂环境下的数据感测、收集与分析等功能。无线传感器网络中的节点具有体积小、计算能力有限、依靠无线电波通讯
作为一种新的信息获取方式和处理模式,无线传感器网络(Wireless SensorNetworks,简称WSNs)目前已成为通信领域备受关注的研究热点。WSNs是一种新型的无基础设施的无线网络,能
随着计算机和网络技术的应用日益普及,各种网络安全问题也日益突出,为此人们开发出了许多针对具体安全问题的安全技术和系统。防火墙和入侵检测系统作为传统的网络安全技术都
本文研究了对等网络(Peer‐to‐Peer P2P)技术在视频点播系统中的应用。针对点播系统的特点,对客户端缓存、客户端片段选择和邻居节点选择给出优化。本论文给出了三个优化策
等距曲面、截面曲面和可展曲面构造算法是计算机图形学及工业设计等领域的热门话题,在CAD/CAM、医学成像以及生物医学模型等领域有着广泛的需求和应用。   等距曲线曲面算