开放获取期刊资源采集系统研究与实现

来源 :中国农业科学院 | 被引量 : 0次 | 上传用户：FOFOXX

【摘要】

：

随着开放获取运动的发展,越来越多的期刊加入到开放获取行列中来。开放获取期刊资源经过同行评审保证了学术质量,且分布广泛,具有重要的学术价值。对开放获取期刊资源采集的

【作者】

：

黄政

【出处】

：

中国农业科学院

【发表日期】

：

2017年期

【关键词】

：

开放获取期刊开放获取期刊采集 Web信息采集元数据采集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着开放获取运动的发展,越来越多的期刊加入到开放获取行列中来。开放获取期刊资源经过同行评审保证了学术质量,且分布广泛,具有重要的学术价值。对开放获取期刊资源采集的研究是有效利用资源的基础。对于OAI-PMH协议的开放获取期刊,通常使用OAI-PMH接口对期刊资源进行采集。对于非OAI-PMH协议的开放获取期刊,一般是对期刊网页中的元数据信息进行采集。然而开放获取期刊是由期刊机构各自对资源进行组织和展示,不同期刊采用不同的资源展现形式,相同期刊在不同时期也可能有不同的资源展现形式,可谓是“千刊千面”。资源展现形式多变为非OAI-PMH协议的开放获取期刊资源采集带来了一定的难度。为了解决此问题,本文对开放获取期刊资源及其采集方法和系统实现做了以下研究。首先,本文对大量国内外开放获取期刊网站进行了采集调研,从网页资源描述的角度归纳总结出开放获取期刊资源具有描述粒度细、描述复杂和描述载体结构多变等特点,并根据资源组织形式,将其分为单一型资源和组合型资源。在对当前主要的资源采集方法对比分析的基础上,结合开放获取期刊资源特点,提出了一种适用于开放获取期刊资源采集的方法。然后,在对开放获取期刊资源采集系统的目标和需求进行了详细分析之后,本文对当前网页采集工具以及其在开放获取期刊资源采集上的应用进行了对比,分析了开发开放获取期刊资源采集系统的必要性。接着提出的开放获取期刊资源采集方法,对系统进行了总体设计。系统主要分为三大模块:用户交互模块、数据采集和网页结构检查模块以及数据存储模块。系统最主要实现的功能包括可视化信息采集、采集规则自动形成、多线程自动采集、网页结构检查、数据质量检测等功能。接着,对系统三大模块和主要功能点的具体实现进行了详细地介绍,并通过编码实现了系统的具体功能,同时从功能和性能两个角度对系统进行了测试。在功能测试中,系统能对单一型资源和组合型资源进行采集,能准确地识别出期刊网站网页结构的变化,并将结构变化后的页面反馈给用户重新进行选择和采集,系统具备了资源采集的基本功能。在性能测试中,通过将系统与八爪鱼采集器对同一期刊资源采集效果进行对比,结果表明系统在召回率和准确率都优于八爪鱼采集器。此外系统对12个非OAI-PMH协议的开放获取期刊网站进行采集,总共采集到了49660篇论文,总共花费时间为31659秒,平均每千篇文章采集所花费的时间为10.62分钟。系统采集的论文数量加上用户标注的脏页数量之和与爬虫脚本采集到的论文链接数量完全相同。说明系统能满足开放获取期刊资源的采集需求,同时验证了本文所提出的开放获取期刊资源采集方法的有效性。最后,本文归纳总结了论文主要研究内容,以及存在的不足。并对下一步工作进行了展望。开放获取期刊资源采集是开放获取期刊资源利用的第一步,也是最基础的一步。要用好开放获取期刊资源还需要有数据清洗、数据仓库建设、数据分析平台以及数据可视化展示等一系列工作。

其他文献

简议小学作文教学中的思维训练

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

浅析道路设计在城市交通安全中的重要性

交通工程作为一项系统工程,是道路建设的核心部分。而道路设计在交通工程中又是起着主导地位,其设计原则是为了改善道路的使用性能,提高安全性。要遵循道路的地物和地形,统筹

期刊

道路设计城市交通安全道路因素设计原则

心跳次数与动物的寿命

<正> 生理学家研究指出:心跳8亿次,为动物的生命极限,所以,心跳的慢快与动物的寿命有着密切的关系。燕子每分钟心跳1200次,一年多时间,其心脏就跳完了8亿次,所以燕子的寿命极

期刊

心脏

酶法拆分制备 L-蛋氨酸工艺鉴定会

期刊

酶法拆分固定化上海医药工业研究院氨基酸

CRM为核心的我国商学院集成信息平台成功的多因素模型

商学院是高等教育机构中最贴近市场、最国际化的学院,既有教育机构的特点,又有着企业特性,商学院信息化水平是衡量商学院发展和参与市场竞争的主要指标之一。商学院信息化不

期刊

客户关素管理商学院信息化信息系统

板条通过圆角时的变形机理研究

板条通过圆角是冲压工艺中带有普遍性的问题，也是冲压工艺基础理论研究中的一个难点。本文以数值模拟为手段，对板条在后拉力作用下通过圆角时的变形机理进行了研究。依据计算结

期刊

板条圆角数值模拟冲压变形机理拉深stripshouldersimulation

演示实验在中学化学教学中的功能与思考

演示实验在中学化学教学中占有重要地位。结合教学实例阐述与分析了如何使演示实验更好地发挥其独特的教学功能,以及成功实施演示实验需注意的问题。

期刊

演示实验探究式教学激发功能思考

miR-30e-5p靶向BIM调控缺氧诱导人源多潜能干细胞来源心肌细胞凋亡的作用及机制研究

冠状动脉微栓塞(Coronary Microembolization,CME)被认为是经皮冠状动脉介入治疗(Percutaneous Coronary Intervention,PCI)的主要并发症之一。CME会导致冠脉慢血流或无复流,CME还会导致心脏收缩功能障碍和心律失常。因此,CME的发生与心肌梗死面积的进展和患者病情预后的恶化程度密切相关。近年来,微小核糖核酸(microRNAs,miRN

学位

microRNA-30e心肌细胞多潜能干细胞凋亡自噬

充液成形装置及锥形件充液拉深成形研究

介绍了作者研制的充液成形装置;使用此装置研究了充液成形过程中压边力和液池压力对圆锥形零件成形结果的影响并实现了此种零件的大拉深比单工步成形.

期刊

充液成形装置圆锥形零件液池压力成形工艺

开放获取期刊资源采集系统研究与实现

其他学术论文