论文部分内容阅读
随着开放获取运动的发展,越来越多的期刊加入到开放获取行列中来。开放获取期刊资源经过同行评审保证了学术质量,且分布广泛,具有重要的学术价值。对开放获取期刊资源采集的研究是有效利用资源的基础。对于OAI-PMH协议的开放获取期刊,通常使用OAI-PMH接口对期刊资源进行采集。对于非OAI-PMH协议的开放获取期刊,一般是对期刊网页中的元数据信息进行采集。然而开放获取期刊是由期刊机构各自对资源进行组织和展示,不同期刊采用不同的资源展现形式,相同期刊在不同时期也可能有不同的资源展现形式,可谓是“千刊千面”。资源展现形式多变为非OAI-PMH协议的开放获取期刊资源采集带来了一定的难度。为了解决此问题,本文对开放获取期刊资源及其采集方法和系统实现做了以下研究。首先,本文对大量国内外开放获取期刊网站进行了采集调研,从网页资源描述的角度归纳总结出开放获取期刊资源具有描述粒度细、描述复杂和描述载体结构多变等特点,并根据资源组织形式,将其分为单一型资源和组合型资源。在对当前主要的资源采集方法对比分析的基础上,结合开放获取期刊资源特点,提出了一种适用于开放获取期刊资源采集的方法。然后,在对开放获取期刊资源采集系统的目标和需求进行了详细分析之后,本文对当前网页采集工具以及其在开放获取期刊资源采集上的应用进行了对比,分析了开发开放获取期刊资源采集系统的必要性。接着提出的开放获取期刊资源采集方法,对系统进行了总体设计。系统主要分为三大模块:用户交互模块、数据采集和网页结构检查模块以及数据存储模块。系统最主要实现的功能包括可视化信息采集、采集规则自动形成、多线程自动采集、网页结构检查、数据质量检测等功能。接着,对系统三大模块和主要功能点的具体实现进行了详细地介绍,并通过编码实现了系统的具体功能,同时从功能和性能两个角度对系统进行了测试。在功能测试中,系统能对单一型资源和组合型资源进行采集,能准确地识别出期刊网站网页结构的变化,并将结构变化后的页面反馈给用户重新进行选择和采集,系统具备了资源采集的基本功能。在性能测试中,通过将系统与八爪鱼采集器对同一期刊资源采集效果进行对比,结果表明系统在召回率和准确率都优于八爪鱼采集器。此外系统对12个非OAI-PMH协议的开放获取期刊网站进行采集,总共采集到了49660篇论文,总共花费时间为31659秒,平均每千篇文章采集所花费的时间为10.62分钟。系统采集的论文数量加上用户标注的脏页数量之和与爬虫脚本采集到的论文链接数量完全相同。说明系统能满足开放获取期刊资源的采集需求,同时验证了本文所提出的开放获取期刊资源采集方法的有效性。最后,本文归纳总结了论文主要研究内容,以及存在的不足。并对下一步工作进行了展望。开放获取期刊资源采集是开放获取期刊资源利用的第一步,也是最基础的一步。要用好开放获取期刊资源还需要有数据清洗、数据仓库建设、数据分析平台以及数据可视化展示等一系列工作。