DeepWeb信息抽取系统的研究与实现

来源 :贵州大学 | 被引量 : 1次 | 上传用户:wwjms
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web相关技术的日益成熟和Deep Web所蕴含信息量的快速增长,对Web数据库的访问逐渐成为获取信息的主要手段,Deep Web的研究也越来越受到人们的关注。Deep Web中蕴含了丰富的数据资源,但是Web数据半结构和无结构的特点,使这些资源难以被很好地利用,如何从Deep Web中自动获取有用的信息是倍受关注的研究课题之一。Deep Web信息抽取系统从Deep Web中抽取大量专业的信息,将半结构或无结构的数据转换为结构化的数据,为用户或其他系统提供丰富的数据源。本文采用数据交换的公共语言XML作为信息抽取工具,研究了基于XML的Web信息抽取技术。由于HTML语法松散,基于HTML代码分析的抽取只能在理想的情况下才适用;而编写网页的目的是为了在浏览器中浏览,所以视觉信息才是分析网页最有力的工具。因此,本文研究了基于页面分块的全自动Web页面抽取算法。基于页面分块Web页面自动抽取算法充分利用网页视觉信息,通过页面分块的方法实现Web页面的自动抽取。实验证明,该算法具有较高的抽取效率和抽取准确性。为满足不同抽取应用对准确性、易用性、适应性和抽取效率等的不同要求,本文针对开放、动态的Web环境,提出了可伸缩的Deep Web信息抽取系统设计方案,在此基础上实现了Deep Web信息抽取原型系统,并将相关技术用到了贵州省信息产业厅2008年信息化专项资金项目——科技文献异构数据库共享检索平台中。
其他文献
目前,软件工业面临着产品功能越来越复杂和推出产品周期越来越短的双重压力。软件工程的一个主要目标就是在复杂性增加的情况下仍能构造正确可靠的系统。为了达到上述目标,形
有效的Android恶意应用程序检测方法对Android系统与应用程序的安全非常重要。对于恶意应用程序检测方法,尤其是基于Android权限机制的检测方法,研究人员进行了大量实验并取得
随着我国公路交通事业的发展,提高公路交通配套设施的自动化程度及其效率日益成为关注的焦点。基于图像的车辆自动化识别系统能有效提高整个公路运输的机动性、安全性和生产
随着时代的发展和社会的进步,互联网的发展越来越成熟,而人类对互联网的依赖也越来越大。从企业公司的业务服务系统,到人与人之间的通讯,无不需要互联网作为依托。在互联网领域,We
在通信技术日益成熟和用户日趋饱和的今天,如何通过业务创新进一步提升用户的AR PU值,增加企业利润,逐渐成为运营商乃至整个业界关注的重点。随着手机普及率的增加,固定电话装机
与常规的超声成像技术不同,超声计算机层析是一种定量的新成像技术,并且从安全和价格角度考虑,它优于X射线等带有电离辐射的层析成像技术。而且,业已证明多频率超声层析成像,
随着园区网规模的扩大和网络应用的普及,网络安全、性能等问题日益增多,为网络管理工作带来很大压力。因此,包括拓扑管理、故障管理、配置管理、流量管理、性能管理、安全管
传统的掌纹识别技术都是基于二维图像进行的,这种方式虽能得到较好的结果但也遇到了一些瓶颈,譬如:安全性方面有待提高,对光照强度等影响也比较敏感,为了提高识别率,本文提出
在工程、物理、生物、自动控制、信号处理中,存在许多周期和脉冲相互交织的现象。对于这些现象,很多情况下能用脉冲周期系统来描述。因此,研究脉冲周期系统十分必要。对脉冲现象