面向OA期刊检索结果页面的信息抽取方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:tianxiuli_ok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网上诸多开放存取(Open Access,OA)期刊快速递增的“孤岛”现状已制约了OA期刊应有效能的发挥。解决该问题的一条途径就是将不同开放存取期刊的检索服务加以整合,建立一个虚拟的数字资源空间,从而实现资源的快速共享,而OA期刊检索结果页面的信息抽取是其中的关键步骤之一。本文主要研究OA期刊检索结果页面的信息抽取方法,研究的具体内容如下。首先,针对目前现有的数据区域定位方法不够准确和对期刊网站检索结果页面定位不能适用的问题,通过分析期刊网站检索结果页面中数据区域与非数据区域的区别,提出了基于统计的数据区域定位算法,并给出了算法描述和实现,该算法以网页分块为基础,然后应用统计的方法进行数据区域定位。其次,为了抽取数据区域中论文信息,需要进行数据记录划分,提出了一种基于聚类的数据记录划分算法,该算法通过计算子树在显示样式、数据类型、标记路径结构、邻接特征四个方面的相似度,对子树进行聚类。数据记录划分后,针对数据记录中数据单元的语义识别问题,提出了一种基于特征相似度的数据单元语义识别算法,该算法通过计算数据单元与所定义语义字符串的特征相似度进行语义识别。最后,通过实验对所提出算法的准确率和召回率等方面进行实验验证及分析,然后将本文算法应用到实际项目中。
其他文献
现代通信技术,从最早的模拟语音网络(PSTN)到数字语音网络(ISDN),再到H.323 VoIP(Voice over IP)网络、SIP(Session Initiation Protocol)VoIP网络等,各种技术平台之间并存共
随着互联网和数字多媒体技术的迅猛发展,数字视频的应用越来越广泛。经过多年的发展,视频编码技术已经较为成熟,最新的视频编码国际标准H.264/AVC以及我国的AVS在编码效率上