论文部分内容阅读
目前,互联网上诸多开放存取(Open Access,OA)期刊快速递增的“孤岛”现状已制约了OA期刊应有效能的发挥。解决该问题的一条途径就是将不同开放存取期刊的检索服务加以整合,建立一个虚拟的数字资源空间,从而实现资源的快速共享,而OA期刊检索结果页面的信息抽取是其中的关键步骤之一。本文主要研究OA期刊检索结果页面的信息抽取方法,研究的具体内容如下。首先,针对目前现有的数据区域定位方法不够准确和对期刊网站检索结果页面定位不能适用的问题,通过分析期刊网站检索结果页面中数据区域与非数据区域的区别,提出了基于统计的数据区域定位算法,并给出了算法描述和实现,该算法以网页分块为基础,然后应用统计的方法进行数据区域定位。其次,为了抽取数据区域中论文信息,需要进行数据记录划分,提出了一种基于聚类的数据记录划分算法,该算法通过计算子树在显示样式、数据类型、标记路径结构、邻接特征四个方面的相似度,对子树进行聚类。数据记录划分后,针对数据记录中数据单元的语义识别问题,提出了一种基于特征相似度的数据单元语义识别算法,该算法通过计算数据单元与所定义语义字符串的特征相似度进行语义识别。最后,通过实验对所提出算法的准确率和召回率等方面进行实验验证及分析,然后将本文算法应用到实际项目中。