论文部分内容阅读
本文提出一种将隐马尔科夫模型(HMM)和小波神经网络(WNN)相结合的混合模型应用于信息抽取。混合模型首先将网页节点特征化,并依据网页内容建立不同的HMM,之后通过WNN选取相应HMM用于信息抽取。HMM无法准确抽取的重要信息,利用WNN做辅助判别。实验证明,该混合模型可以提高Web信息抽取的精准度,混合模型抽取信息的主要过程如下:(1)对Web页面进行解析。解析页面的同时利用正则表达式技术,将Web节点特征化。特征化节点这一步骤需要根据Web大体环境,及待抽取信息的特点设计一组正则表达式及一套特征化方案。特征化之后,所有Web页面都可以映射成一组特征值序列流,作为混合模型的输入。(2)建立小波网络模型。本文将建立三种小波网络模型,在文中将会被分别称为WNN~1,WNN~2,WNN~3。WNN~1用于计算HMM的观察概率密度,WNN~2用于从建立的HMM集合中选取一个具体的HMM应用于待抽取信息的网页块,WNN~3用于在HMM不能很好的抽取时,直接从网页块中抽取信息。(3)建立隐马尔科夫模型集合。特定类型的Web页面,或者Web块将会对应于特定的HMM。信息抽取之前,混合模型会根据Web环境及待抽取信息建立一个HMM的集合。模型的训练阶段乃至实际的信息抽取过程中,如果已有的HMM不能很好的进行信息抽取,需要利用信息准则模型来进行HMM状态节点的分裂,自动生成新的HMM。本文最后给出了HMM与WNN混合模型用于实际Web环境的信息抽取实验,并根据实验结果给出混合模型的不足和需要改进的地方。