论文部分内容阅读
摘 要:[目的/意义]大数据环境下学术创新力自动测度需要建立在相关学术评价指标和学科知识体系基础上,基于领域知识的本体构建将为学术创新力的自动测度提供基础支持。[方法/过程]用手工方式构建学术创新力概念本体,复用《中国分类主题词表》半自动化构建学术创新力评价知识资源的初始本体,加入CNKI 期刊题录数据的高频关键词以丰富本体的知识。然后进行学术创新力概念本体和学术创新力评价知识资源本体的实例化。[结果/结论]以G3类题录数据为例,共建立了30 097个概念、41 484个实例以及320 609条关系,基本完成任务目标。
关键词:本体;知识库;构建方法;学术创新力;评价
DOI:10.3969/j.issn.1008-0821.2019.05.004
〔中图分类号〕G316 〔文献标识码〕A 〔文章编号〕1008-0821(2019)05-0030-08
Abstract:[Purpose/Meaning]The automatic measurement of academic innovation in the big data environment needs to be based on relevant academic evaluation indicators and subject knowledge systems.The ontology construction based on domain knowledge will provide basic support for the automatic measurement of academic innovation.[Method/Process]The ontology of academic innovation was constructed by hand,and the Chinese Ontology Thesaurus was used to semi-automatically construct the initial ontology of academic innovation to evaluate knowledge resources.The high-frequency keywords of CNKI journals were added to enrich the ontology knowledge.Then academic innovation power concept and academic innovation measurement knowledge resource were used to the instantiation of ontology.[Result/Conclusion]Taking the G3 bibliographic data as an example,a total of 30097 concepts,41484 instances and 320609 relationships were established to accomplish the mission objectives.
Key words:ontology;knowledge base;construction method;academic innovation;evaluation
學术创新力是创新主体在对学术知识的采纳、吸收、创新过程中所体现出的素质和能力,即软技术力[1]。如何客观地评价学术创新力,对学术创新力进行量化是一个难题,在大数据时代背景下,这一难题的解决得到了有力的支撑。重视信息和数据之间的联系,运用数据挖掘和分析技术,整合和利用多种数据,用数据说话,将有助于我们建立更加客观公正、科学合理的学术创新力测度体系。
知识库是能够组织和表示知识,提供知识服务的系统。在进行特定领域的学术创新力的数据分析和挖掘之前,先要实现领域知识的获取,构建特定领域的本体或知识库。本体作为一种概念模型,可以实现知识的获取、联系、呈现和重用,对本体的研究已成为知识库构建研究的重要环节之一。
本文采用本体理论和技术,结合学科领域知识构建学术创新力测度本体,是基于大数据的学术创新力测度的基础,为知识库构建、数据挖掘等其他与学术创新力自动测度相关的研究提供支持,有助于丰富学术创新力测度研究和评价的研究成果。
1 相关研究及本文研究目标
1.1 学术创新力相关研究
目前国内外关于学术创新力测度评价的研究工作和成果相对都较少,因为学术研究、创新的内容一般基于一定的学科领域范畴,所以本文在进行文献调研时还参考了与学术创新力测度研究内容、方法较为相似的学科创新力评价的文献。
蒋伟伟[1]通过对国内外相关研究的分析以及人文社会科学学术创新力相关概念的辨析,指出了学术创新力的研究内涵:学术创新力是创新主体在对学术知识的采纳、吸收、创新的过程中所体现出的素质和能力。Mishra S等[2]人基于医学主题词表,对单篇文献的主题新颖度进行考量,提出了基于改进词频统计等一系列方法。杨建林等[3]基于词频和共现词分析等思想,提出了量化文档主题新颖度的4项原则,给出了基于关键词对逆文档频率的主题新颖度的计算公式,对衡量单篇文献或作者个人的学术创新力有重要的指导意义。这些研究为本文构建学术创新力测度体系概念本体构建提供了思路。
1.2 本体构建相关研究
领域本体构建方法有一系列较为成熟方法,如七步法、IDEF-5法和骨架法等。本体在工程、医学、图书情报学等领域一直有广泛应用,相关研究主要集中在基于本体的各类工程产品设计、医学术语间联系构建、图情领域知识地图构建。具体构建方法主要包括手工构建、复用已有本体,近年来有学者开始研究基于机器学习的本体构建。手工构建本体耗时费力,且比较主观,缺少科学管理和评价机制,复用已有本体或其他知识组织形式的非手工构建方法,则可以较容易地获取领域知识和概念关系。关于基于叙词表的本体构建方法的研究已经较为成熟。唐爱民等[4]提出将《国防科学技术叙词表》向本体转换,形成军用飞机领域本体的方法。丁晟春等[5]分析了航天科技叙词表的知识组织结构和词间关系,完成了向航天领域本体的转化,最后用OWL Lite实现半自动化构建。将机器学习方法应用于本体的自动构建是目前的一个研究热点,但概念间关系的抽取依赖于复杂的语言处理模型。郭瑞[6]在构建中文领域本体时,以纯文本为数据源,采用将一系列规则与统计的算法进行有机结合的方法,抽取领域术语、概念和概念分类关系。文必龙等[7]在构建石油领域本体的实践中,将文本分析的思想引入本体方法论。蒋婷等[8-9]学者对学术概念等级关系和非等级关系的学术概念抽取进行了细致的研究。上述研究为本文学术创新力测度体系知识资源本体构建提供了借鉴。 4 结论及下一步工作
本文旨在结合学科领域知识,构建学术创新力本体,为后续学术创新力自动测度研究提供基础支持,通过概念本体描述学术创新力测度领域的概念和模型的知识网络,知识资源本体将测度体系要用到的特定学科领域的知识资源进行组织,二者合二为一才是可支持学术创新力自动测度研究的实用本体。在研究过程中,共建立了30 097个概念,41 484多个实例以及320 609条关系,基本完成创建学术创新力测度本体的任务目标。
本文是对学术创新力测度领域构建本体的首次尝试,存在着一些不足之处。首先是前文提到的知识资源本体的完善,后续工作中可以考虑使用LDA模型抽取期刊文献的主题词加入其中,避免作者标注关键词的主观性,这样构建出来的本体,在应用于学术创新力测度时会帮助呈现更加客观有效的结果。其次是构建概念本体时采用了手工抽取相关核心概念的方式,这么做虽然可以保证抽取到的关键词是准确有效的,但是难免费时费力,当学术创新力方面的研究成果爆发时,更会显得力不从心。因此后面可以考虑利用规则与统计相结合的方法来自动化的抽取核心概念。然后是在添加文献类实例的过程中,本文简单将DOI类与其他6个类的关系定义为“attribute-of”,今后可以进一步细化类间关系。最后是本文构建的本体是为了后期的知识库以及学术创新力自动测度研究服务的,目前只添加了单指标评价实例,还需要进一步的添加其他测度体系和领域知识实例、概念间关系,不断充实和完善本体,为学术创新力的自动测度提供坚实的基础和保障。
参考文献
[1]蒋伟伟.人文社会科学学术创新力测度研究[D].南京:南京大学,2013:41.
[2]Mishra S,Torvik V I.Quantifying Conceptual Novelty in the Biomedical Literature[J].Dlib Mag,2016,22(9-10).
[3]杨建林,钱玲飞.基于关键词对逆文档频率的主题新颖度度量方法[J].情报理论与实践,2013,36(3):99-102.
[4]唐爱民,真溱,樊静.基于叙词表的领域本体构建研究[J].现代图书情报技术,2005,(4):1-5.
[5]丁晟春,傅柱.基于航天叙词表的领域本体半自动化构建研究[J].情报理论与实践,2011,34(11):113-116.
[6]郭瑞.基于纯文本的领域本体构建与实现[D].石家庄:河北科技大学,2016:53.
[7]文必龙,段炼,汪志群,等.基于语料库和规则库的石油本体自动构建研究[J].计算机技术与发展,2015,25(9):209-212.
[8]蒋婷,孙建军.领域学术本体概念等级关系抽取研究[J].情报学报,2017,36(10):1080-1092.
[9]蒋婷,孙建军.学术资源本体非等级关系抽取研究[J].图书情报工作,2016,60(20):112-122.
[10]周红照,侯敏,滕永林. 评价知识本体研究与规则实现[J].现代图书情报技术,2016,(10):25-32.
[11]姜韶华,武静.基于本体与BIM的绿色建筑智能评价系统[J].工程管理学报,2016,30(4):35-39.
[12]冯淑芳,王素格.面向观点挖掘的汽车评价本体知识库的构建[J].计算机应用与软件,2011,28(5):45-47,105.
[13]Daraio C,Lenzerini M,Leporelli C,et al.Data Integration for Research and Innovation Policy:An Ontology-Based Data Management Approach[J].Scientometrics,2016,106(2):857-871.
[14]Cano-Basave A E,Osborne F,Salatino A A.Ontology Forecasting in Scientific Literature:Semantic Concepts Prediction Based on Innovation-Adoption Priors[C]//European Knowledge Acquisition Workshop.Springer International Publishing,2016.
[15]錢玲飞,杨建林,张莉.基于关键词分析的学科创新力比较[J].情报理论与实践,2011,34(1):117-120.
[16]钱玲飞,杨建林,邓三鸿.人文社会科学学科创新力单指标评价[J].图书与情报,2013,(2):93-98.
(责任编辑:陈 媛)
关键词:本体;知识库;构建方法;学术创新力;评价
DOI:10.3969/j.issn.1008-0821.2019.05.004
〔中图分类号〕G316 〔文献标识码〕A 〔文章编号〕1008-0821(2019)05-0030-08
Abstract:[Purpose/Meaning]The automatic measurement of academic innovation in the big data environment needs to be based on relevant academic evaluation indicators and subject knowledge systems.The ontology construction based on domain knowledge will provide basic support for the automatic measurement of academic innovation.[Method/Process]The ontology of academic innovation was constructed by hand,and the Chinese Ontology Thesaurus was used to semi-automatically construct the initial ontology of academic innovation to evaluate knowledge resources.The high-frequency keywords of CNKI journals were added to enrich the ontology knowledge.Then academic innovation power concept and academic innovation measurement knowledge resource were used to the instantiation of ontology.[Result/Conclusion]Taking the G3 bibliographic data as an example,a total of 30097 concepts,41484 instances and 320609 relationships were established to accomplish the mission objectives.
Key words:ontology;knowledge base;construction method;academic innovation;evaluation
學术创新力是创新主体在对学术知识的采纳、吸收、创新过程中所体现出的素质和能力,即软技术力[1]。如何客观地评价学术创新力,对学术创新力进行量化是一个难题,在大数据时代背景下,这一难题的解决得到了有力的支撑。重视信息和数据之间的联系,运用数据挖掘和分析技术,整合和利用多种数据,用数据说话,将有助于我们建立更加客观公正、科学合理的学术创新力测度体系。
知识库是能够组织和表示知识,提供知识服务的系统。在进行特定领域的学术创新力的数据分析和挖掘之前,先要实现领域知识的获取,构建特定领域的本体或知识库。本体作为一种概念模型,可以实现知识的获取、联系、呈现和重用,对本体的研究已成为知识库构建研究的重要环节之一。
本文采用本体理论和技术,结合学科领域知识构建学术创新力测度本体,是基于大数据的学术创新力测度的基础,为知识库构建、数据挖掘等其他与学术创新力自动测度相关的研究提供支持,有助于丰富学术创新力测度研究和评价的研究成果。
1 相关研究及本文研究目标
1.1 学术创新力相关研究
目前国内外关于学术创新力测度评价的研究工作和成果相对都较少,因为学术研究、创新的内容一般基于一定的学科领域范畴,所以本文在进行文献调研时还参考了与学术创新力测度研究内容、方法较为相似的学科创新力评价的文献。
蒋伟伟[1]通过对国内外相关研究的分析以及人文社会科学学术创新力相关概念的辨析,指出了学术创新力的研究内涵:学术创新力是创新主体在对学术知识的采纳、吸收、创新的过程中所体现出的素质和能力。Mishra S等[2]人基于医学主题词表,对单篇文献的主题新颖度进行考量,提出了基于改进词频统计等一系列方法。杨建林等[3]基于词频和共现词分析等思想,提出了量化文档主题新颖度的4项原则,给出了基于关键词对逆文档频率的主题新颖度的计算公式,对衡量单篇文献或作者个人的学术创新力有重要的指导意义。这些研究为本文构建学术创新力测度体系概念本体构建提供了思路。
1.2 本体构建相关研究
领域本体构建方法有一系列较为成熟方法,如七步法、IDEF-5法和骨架法等。本体在工程、医学、图书情报学等领域一直有广泛应用,相关研究主要集中在基于本体的各类工程产品设计、医学术语间联系构建、图情领域知识地图构建。具体构建方法主要包括手工构建、复用已有本体,近年来有学者开始研究基于机器学习的本体构建。手工构建本体耗时费力,且比较主观,缺少科学管理和评价机制,复用已有本体或其他知识组织形式的非手工构建方法,则可以较容易地获取领域知识和概念关系。关于基于叙词表的本体构建方法的研究已经较为成熟。唐爱民等[4]提出将《国防科学技术叙词表》向本体转换,形成军用飞机领域本体的方法。丁晟春等[5]分析了航天科技叙词表的知识组织结构和词间关系,完成了向航天领域本体的转化,最后用OWL Lite实现半自动化构建。将机器学习方法应用于本体的自动构建是目前的一个研究热点,但概念间关系的抽取依赖于复杂的语言处理模型。郭瑞[6]在构建中文领域本体时,以纯文本为数据源,采用将一系列规则与统计的算法进行有机结合的方法,抽取领域术语、概念和概念分类关系。文必龙等[7]在构建石油领域本体的实践中,将文本分析的思想引入本体方法论。蒋婷等[8-9]学者对学术概念等级关系和非等级关系的学术概念抽取进行了细致的研究。上述研究为本文学术创新力测度体系知识资源本体构建提供了借鉴。 4 结论及下一步工作
本文旨在结合学科领域知识,构建学术创新力本体,为后续学术创新力自动测度研究提供基础支持,通过概念本体描述学术创新力测度领域的概念和模型的知识网络,知识资源本体将测度体系要用到的特定学科领域的知识资源进行组织,二者合二为一才是可支持学术创新力自动测度研究的实用本体。在研究过程中,共建立了30 097个概念,41 484多个实例以及320 609条关系,基本完成创建学术创新力测度本体的任务目标。
本文是对学术创新力测度领域构建本体的首次尝试,存在着一些不足之处。首先是前文提到的知识资源本体的完善,后续工作中可以考虑使用LDA模型抽取期刊文献的主题词加入其中,避免作者标注关键词的主观性,这样构建出来的本体,在应用于学术创新力测度时会帮助呈现更加客观有效的结果。其次是构建概念本体时采用了手工抽取相关核心概念的方式,这么做虽然可以保证抽取到的关键词是准确有效的,但是难免费时费力,当学术创新力方面的研究成果爆发时,更会显得力不从心。因此后面可以考虑利用规则与统计相结合的方法来自动化的抽取核心概念。然后是在添加文献类实例的过程中,本文简单将DOI类与其他6个类的关系定义为“attribute-of”,今后可以进一步细化类间关系。最后是本文构建的本体是为了后期的知识库以及学术创新力自动测度研究服务的,目前只添加了单指标评价实例,还需要进一步的添加其他测度体系和领域知识实例、概念间关系,不断充实和完善本体,为学术创新力的自动测度提供坚实的基础和保障。
参考文献
[1]蒋伟伟.人文社会科学学术创新力测度研究[D].南京:南京大学,2013:41.
[2]Mishra S,Torvik V I.Quantifying Conceptual Novelty in the Biomedical Literature[J].Dlib Mag,2016,22(9-10).
[3]杨建林,钱玲飞.基于关键词对逆文档频率的主题新颖度度量方法[J].情报理论与实践,2013,36(3):99-102.
[4]唐爱民,真溱,樊静.基于叙词表的领域本体构建研究[J].现代图书情报技术,2005,(4):1-5.
[5]丁晟春,傅柱.基于航天叙词表的领域本体半自动化构建研究[J].情报理论与实践,2011,34(11):113-116.
[6]郭瑞.基于纯文本的领域本体构建与实现[D].石家庄:河北科技大学,2016:53.
[7]文必龙,段炼,汪志群,等.基于语料库和规则库的石油本体自动构建研究[J].计算机技术与发展,2015,25(9):209-212.
[8]蒋婷,孙建军.领域学术本体概念等级关系抽取研究[J].情报学报,2017,36(10):1080-1092.
[9]蒋婷,孙建军.学术资源本体非等级关系抽取研究[J].图书情报工作,2016,60(20):112-122.
[10]周红照,侯敏,滕永林. 评价知识本体研究与规则实现[J].现代图书情报技术,2016,(10):25-32.
[11]姜韶华,武静.基于本体与BIM的绿色建筑智能评价系统[J].工程管理学报,2016,30(4):35-39.
[12]冯淑芳,王素格.面向观点挖掘的汽车评价本体知识库的构建[J].计算机应用与软件,2011,28(5):45-47,105.
[13]Daraio C,Lenzerini M,Leporelli C,et al.Data Integration for Research and Innovation Policy:An Ontology-Based Data Management Approach[J].Scientometrics,2016,106(2):857-871.
[14]Cano-Basave A E,Osborne F,Salatino A A.Ontology Forecasting in Scientific Literature:Semantic Concepts Prediction Based on Innovation-Adoption Priors[C]//European Knowledge Acquisition Workshop.Springer International Publishing,2016.
[15]錢玲飞,杨建林,张莉.基于关键词分析的学科创新力比较[J].情报理论与实践,2011,34(1):117-120.
[16]钱玲飞,杨建林,邓三鸿.人文社会科学学科创新力单指标评价[J].图书与情报,2013,(2):93-98.
(责任编辑:陈 媛)