基于HMM与WNN混合模型的Web信息抽取研究

来源 :南华大学 | 被引量 : 2次 | 上传用户:zj280078064
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出一种将隐马尔科夫模型(HMM)和小波神经网络(WNN)相结合的混合模型应用于信息抽取。混合模型首先将网页节点特征化,并依据网页内容建立不同的HMM,之后通过WNN选取相应HMM用于信息抽取。HMM无法准确抽取的重要信息,利用WNN做辅助判别。实验证明,该混合模型可以提高Web信息抽取的精准度,混合模型抽取信息的主要过程如下:(1)对Web页面进行解析。解析页面的同时利用正则表达式技术,将Web节点特征化。特征化节点这一步骤需要根据Web大体环境,及待抽取信息的特点设计一组正则表达式及一套特征化方案。特征化之后,所有Web页面都可以映射成一组特征值序列流,作为混合模型的输入。(2)建立小波网络模型。本文将建立三种小波网络模型,在文中将会被分别称为WNN~1,WNN~2,WNN~3。WNN~1用于计算HMM的观察概率密度,WNN~2用于从建立的HMM集合中选取一个具体的HMM应用于待抽取信息的网页块,WNN~3用于在HMM不能很好的抽取时,直接从网页块中抽取信息。(3)建立隐马尔科夫模型集合。特定类型的Web页面,或者Web块将会对应于特定的HMM。信息抽取之前,混合模型会根据Web环境及待抽取信息建立一个HMM的集合。模型的训练阶段乃至实际的信息抽取过程中,如果已有的HMM不能很好的进行信息抽取,需要利用信息准则模型来进行HMM状态节点的分裂,自动生成新的HMM。本文最后给出了HMM与WNN混合模型用于实际Web环境的信息抽取实验,并根据实验结果给出混合模型的不足和需要改进的地方。
其他文献
人脸识别技术是模式识别领域中一个非常活跃的研究课题,它在经济、法律上有着广阔的应用前景.特征抽取是模式识别中的关键问题之一,线性鉴别分析(LDA)是一种有效的特征提取方法
数据库中的知识发现(KDD)主要是研究如何自动地和智能地从海量的数据中提取出有用的知识和信息,它是目前相当活跃的一个研究领域。概念格模型作为一种用于数据分析的形式化的
地理信息系统(Geographic Information System,简称GIS)是以空间数据为基础,在计算机硬件的支持下,对空间相关数据进行采集、管理、操作、分析、模拟和显示,采用地理模型分析方法
人脸是人类表达情感的重要载体,具有丰富的生物信息。人脸识别、人脸跟踪和表情识别技术广泛应用于身份认证、视频监控和人机交互等应用领域。人脸检测技术是人脸识别、人脸跟
在对各种传统的Unix/Linux检查点算法进行分析和分类评述的基础上,采用基于PVM的交错的非阻塞一致性并行检查点算法,在Linux工作站群环境下实现了一个可应用于PVM的并行检查
该文首先从工控组态软件的分析和设计方法着手,提出了基于可复用构件的工控组态软件的设计思想,并分析了可复用构件及其开发和组装方法,重点研究COM/DCOM技术.为了增强通用性
本文以为大连市计划生育委员会开发研制育龄妇女管理信息系统中所遇到的实际情况为背景,结合了分布式数据库的相关理论、计算机网络技术和三层次结构计算模型,根据实际需要设计
当今网络迅速发展,网络的规模不断扩大,网络系统中设备的多样化以及各种设备功能和运行情况的差异,使得网络管理越来越复杂。设计一个好的网络管理软件进行对网络的管理是十分必
本文系统地讨论了计算机网络安全防范的基本原理、方法以及网络安全的研究现况。分析了黑客入侵网络的常用手段,指出网络被入侵的根本原因在于系统安全漏洞的存在。 针对漏
随着全球经济的发展,分布式数据库应用日益广泛,许多数据被自然地分布在不同位置上。如,一个公司很可能在世界范围内设有分公司,每个分公司都有自己的数据库。因此,数据仓库技术变