开放社会经济信息的元数据研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:zhuzi1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘要〕社会经济信息与科技创新密切相关。建立支持产业发展、技术创新和成果转化的技术、行业、经济和社会信息资源支持体系,满足用户需求,有效支持用户获得经过遴选和评价的技术、行业、经济和社会等信息,为用户提供全面的信息支撑显得尤为重要。本文以开放社会经济信息的元数据为研究对象,对网络信息资源、报告、新闻资讯、政策法规、统计数据、生产技术等资源进行了调研。
  〔关键词〕开放获取;社会经济信息;元数据;信息组织;揭示与服务系统
  DOI:10.3969/j.issn.1008-0821.2015.10.011
  〔中图分类号〕G25073〔文献标识码〕B〔文章编号〕1008-0821(2015)10-0055-07
  Research on the Metadata of Open Socioeconomic Information
  ——Taking Revelation and Service System of Open Socioeconomic Information as an ExampleXu WenShao RongDing Xiaoqin
  (Wuhan Documentation and Information Center,Chinese Academy of Sciences,Wuhan 430071,China)
  〔Abstract〕Socioeconomic information is closely related to the innovation of science and technology.It is very important to provide users with comprehensive information support that meet their needs.The system builds support for socioeconomic information of industrial development,technology innovation and transformation through the selection and evaluation.This paper analyzed metadata of Open Socioeconomic Information,and investigated the network information resources,reports,news,policies and regulations,statistical data,production technology and other resources.
  〔Key words〕open access;socioeconomic information;metadata;information organization;revelation and service system
  经济信息(Economic information)是指社会经济活动所产生的、反映经济活动并为其服务的消息、事实、数据、知识等[1]。狭义的概念只包含经济活动直接反映出来的信息,而广义的经济信息则是包含了经济活动所涉及的政治、法律、科学、技术、自然环境等各方面的信息。开放社会经济信息资源指的是能够开放获取(Open Access)的社会经济信息,包含技术信息、政府信息、市场动态、行业资讯、统计数据、各类相关报告、科研项目信息等。这之中既包括资源的集合也包括资源的内容。
  随着市场经济的发展,社会经济信息日趋成为科技创新活动的重要组成部分。中国科学院“创新2020”方案明确提出今后要把面向区域经济和产业发展需求,开展产业前沿技术创新、技术集成创新、工程化研发和成果转移转化作为重要工作任务的战略部署[2]。针对从事应用研究、转换型研究和成果转移转化工作较多的研究机构对于社会经济、市场信息需求愈来愈强烈的现状,中国科学院国家科学数字图书馆二期启动了“开放社会经济信息集成揭示与服务系统”项目,实现对相关信息资源的发现、遴选、采集、描述、组织、利用及长期保存。本文以开放社会经济信息资源为研究对象,对相关的元数据进行了研究,尝试建立准确完善的各类社会经济信息的元数据描述规范,使用户能够在纷繁芜杂的各类经济信息中快速准确获得有价值、可利用的开放资源。
  1开放社会经济信息元数据规范的现状
  参考元数据的研究现状,科技部科技基础条件平台专项资金项目《我国数字图书馆标准规范建设》中的子项目成果——《网络资源元数据规范》[3]基于DC(Dublin Core)元数据在资源集合的层面做出定义,但没有对具体的资源内容进行描述。国家科技图书文献中心制定的《NSTL文献资源加工规范》中有《科技报告描述元数据规范》[4]是针对资源内容的元数据规范,但主要针对的是科技报告,社会经济类的报告和其它资源没有专门的描述。
  由于社会经济信息具有形态多样、种类繁杂、渠道众多等特点,并且受传统资源建设观念的影响,绝大多数图书馆尚未对这类信息资源进行系统、有效的发现、组织和保存。基于对零散信息、非结构化信息描述不足的现状,研究制定有针对性的开放社会经济信息的元数据描述规范就显得十分重要和迫切了。
  2015年10月第35卷第10期现?代?情?报Journal of Modern InformationOct,2015Vol35No102015年10月第35卷第10期开放社会经济信息的元数据研究Oct,2015Vol35No102开放社会经济信息资源调研及分析
  开放社会经济信息的资源调研与集成揭示主要分为两个层级:(1)资源集合层级,资源集合能够让用户大量发现结构化信息资源,对资源集合的揭示可以认为是将大量资源作为一个整体描述。例如我们可以将网站上的各个栏目理解成资源集合,那么网站就是对资源集合的集合;同理,商业数据库通常包括各种类型的统计数据,每一种统计数据可以看作是一个资源集合,那么该数据库就不难理解为集合的集合了。(2)资源内容层级,具体来讲是指一条新闻,一篇研究报告,一部法规,诸如此类具体的某一条信息。对资源内容的集成揭示就是将这类单个资源集成为目录或列表的形式。如“开放社会经济集成揭示与服务系统”中“新闻资讯”、“政策法规”、“研究报告”等栏目,这些都是由单个文档组成的列表。此外,学会、协会、政府机构组织产出的报告集也可以归于此类,报告集目录是典型的资源内容集成揭示对象。   31网络资源集合元数据描述规范
  网络资源元数据描述规范属性集在已有字段的基础上扩展了一些特殊字段来描述资源集合的内容类型属性、资源集合涵盖的具体内容等,更适合开放社会经济集成揭示与服务系统的用户需求,如表1所示。
  表1网络资源元数据描述规范属性集
  字段限定名称数据类型是否必备ID标识号ID字符型必备题名Title字符型必备其他题名Othertitle字符型可选标识符(URL)Identifierurl字符型必备创?建?者Creator字符型可选其他责任者Contributor字符型可选语种Language字符型可选描述Txt文本型可选格式Format字符型可选行业分类Industry Classification字符型必备领域分类Field Classification字符型必备中文关键词KeywordsCn字符型可选英文关键词KeywordsEn字符型可选中文主题词SubjectheadingsCN字符型可选英文主题词SubjectheadingsEn字符型可选出?版?者Publisher字符型可选创建日期CreateDate日期型有则必备信息来源网站对应的资源类型Sourcetype字符型必备所包含的资源类型ResourceType1字符型有则必备所包含的资源类型对应的原始网址ResourceType1URL字符型有则必备表1(续)
  字段限定名称数据类型是否必备覆盖范围Coverage字符型可选权限管理Rights字符型可选国家地区Country字符型可选版本Edition字符型可选推荐级别Recommendationlevel字符型可选是否数据库来源Ifdatabase字符型必备目前国内重点高校保障情况Universityholding字符型可选中科院目前保障情况CASholding字符型可选
  32资源内容元数据描述规范
  根据调研结果和不同类型资源内容的形式特征,遵循用户需求原则,参考影响元数据质量的几大维度,即完整性、准确性、规范性、惟一性、一致性、及时性、有效性、适用性、可维护性、关联性[12],对字段进行了扩展(如表2~表7所示)。
  表2研究报告元数据描述规范属性集
  字段限定名称数据类型是否必备ID标识号ID字符型必备题名Title字符型必备其他题目Othertitle字符型可选标识符(URL)Identifierurl字符型可选语种Language字符型可选责?任?者Creator1字符型可选责任机构Creator2字符型可选行业分类Industry Classification字符型必备领域分类Field Classification字符型必备报告格式Format字符型可选出?版?者Publisher字符型可选日期Date日期型可选报告编号Reportid字符型可选报告页数Page字符型可选报告字数Characters字符型可选报告价格Price字符型可选联系方式Contact字符型可选报告描述Txt文本型可选报告目录Catalog字符型可选中文关键词KeywordsCn字符型可选英文关键词KeywordsEn字符型可选中文主题词SubjectheadingsCN字符型可选英文主题词SubjectheadingsEn字符型可选信息来源网站Source字符型有则必备信息来源网站对应的资源类型Sourcetype字符型有则必备资源类型Resourcetype字符型必备资源内容类型Resourcecontenttype字符型可选报告评级Reportlevel字符型可选权限管理Rights字符型有则必备是否数据库来源Ffdatabase字符型必备该数据库中科院保障情况Universityholding字符型可选目前国内重点高校保障情况CASholding字符型可选
  表3信息报道、政策法规、分析评论元数据描述规范属性集
  字段限定名称数据类型是否必备ID标识号ID字符型必备题名Title字符型必备其他题名Othertitle字符型可选标识符(URL)URL字符型必备创?建?者Creator字符型可选其他责任者Contributor字符型可选语种Language字符型可选描述Txt文本型可选格式Format字符型可选行业分类Industry Classification字符型必备领域分类Field Classification字符型必备自动分类Auto Classification字符型可选中文关键词KeywordsCn字符型可选英文关键词KeywordsEn字符型可选中文主题词SubjectheadingsCN字符型可选英文主题词SubjectheadingsEn字符型可选出?版?者Publisher字符型可选发布日期PublishDate日期型有则必备信息来源网站Source字符型可选信息来源网站对应的资源类型Sourcetype字符型必备资源类型Resourcetype字符型必备资源内容类型Resourcecontenttype字符型可选信息源的发布时间Resourcedate日期型可选权限管理Rights字符型可选推荐级别Recommendationlevel字符型可选
  表4生产技术——专利元数据描述规范属性集
  字段限定名称数据类型是否必备ID标识号ID字符型必备申?请?号Application Number字符型必备申?请?日Application Date字符型可选申请公布号Publication Number字符型必备申请公布日Publication Date字符型可选申请人(专利权)Applicants字符型可选发明(设计)人Inventor字符型可选申请人地址Applicants Address文本型可选主分类号Classifation字符型可选行业分类Industry Classifation字符型必备领域分类Field Classification字符型必备自动分类Auto Classifation字符型可选中文关键词KeywordsCn字符型可选英文关键词KeywordsEn字符型可选中文主题词SubjectheadingsCN字符型可选英文主题词SubjectheadingsEn字符型可选国际分类号IPC字符型可选国别代码Countrycode日期型有则必备优?先?权Priority Number字符型可选摘要Abstract字符型可选主?权?项PrimaryItem字符型必备表4(续)   字段限定名称数据类型是否必备法律状态Legal Status字符型可选同族专利Patentfamily字符型可选专利类型Patenttype字符型必备信息来源网站Source字符型必备信息来源网站对应的资源类型Sourcetype字符型必备资源类型Resourcetype字符型必备资源内容类型Resourcecontenttype字符型必备权限管理Rights字符型可选推荐级别Recommendationlevel字符型可选
  表5生产技术——标准元数据描述规范属性集
  字段限定名称数据类型是否必备ID标识号ID字符型必备标?准?号Document Reference字符型必备标准中文名称DocumentnameCN字符型可选标准英文名称DocumentnameEN字符型必备发布单位Announcement Body字符型可选发布日期Announcement Date日期型可选语种language字符型可选标准状态Document Status文本型可选起草单位Drafting Body字符型可选标准类型Standardtype字符型可选国际标准分类号ICS Number字符型可选行业分类Industry Classifation字符型必备领域分类Field Classification字符型必备自动分类Auto Classifation字符型可选中国标准分类号CCS Number字符型可选总?页?数Page字符型可选实施日期Effective Date日期型可选国别Country字符型可选中文关键词KeywordsCn字符型可选英文关键词KeywordsEn字符型可选中文主题词SubjectheadingsCN字符型可选英文主题词SubjectheadingsEn字符型可选被替代标准Replace字符型可选信息来源网站Source字符型必备信息来源网站对应的资源类型Sourcetype字符型必备资源类型Resourcetype字符型必备资源内容类型Resourcetype1字符型必备权限管理Rights字符型可选推荐级别Recommendationlevel字符型可选
  表6统计数据元数据描述规范集
  字段限定名称数据类型是否必备ID标识号ID字符型必备行业分类Industry Classification字符型必备领域分类Field Classification字符型必备表6(续)
  字段限定名称数据类型是否必备数据采集日期Datadate日期型可选数据包含量Datanumber字符型可选统计项目Staticsobject字符型可选数据内容Content字符型可选信息来源网站Source字符型可选信息来源网站对应的资源类型Sourcetype字符型可选资源类型Resourcetype字符型可选资源内容类型Resourcetype1字符型可选权限管理Rights字符型可选推荐级别Recommendationlevel字符型可选
  表7公司机构信息元数据描述规范属性集
  字段限定名称〖〗数据
  类型是否
  必备字段限定名称数据
  类型是否
  必备ID标识号ID字符型必备公司规模Scale字符型可选机构名称Title字符型必备电子邮件EmailAddress字符型可选机构描述Description文本型可选电话TelephoneNumber字符型可选机构URLURL字符型可选传真FaxNumber字符型可选机构类型Type字符型可选地址Address字符型可选国家地区Country字符型必备主营业务Main Business Income字符型可选行业分类Classification字符型必备主营产品Main Product字符型可选领域分类Field Classification字符型必备公司上市情况Quoted Company字符型必备中文关键词KeywordsCn字符型可选推荐级别Recommendationlevel字符型可选英文关键词KeywordsEn字符型可选权限管理Rights字符型可选
  4结语
  开放社会经济信息与科技创新密切相关,随着研究的深入和信息技术、网络技术的迅猛发展,开放社会经济信息的内涵与外延也将不断扩展和完善。该如何进一步去建立准确、完整、适用的元数据规范,扩大资源数量与提升资源质量来帮助用户获取有价值的开放社会经济信息还需要更多的思考与实践。
  参考文献
  [1]孙更新.经济信息检索概论[M].武汉:武汉大学出版社,2011:2-6.
  [2]中国科学院.科技发展新态势与面向2020年的战略选择[R].北京:科学出版社,2013.
  [3]《我国数字图书馆标准规范建设》课题组.网络资源元数据规范[EB].http:∥cdls.nstl.gov.cn/2003/Whole/TecReports.html#allreports,2007-01-19.
  [4]国家科技图书文献中心.科技报告描述元数据规范[EB].http:∥spec.nstl.gov.cn/specification/index.php?title=科技报告描述元数据规范,2009-11-09.
  [5]宋文,傅红梅,路纳新,等.文献资源集成揭示的思路与实践[J].图书情报工作,2008,52(4):93-96.
  [6]International Solar Energy Society[EB].http:∥www.ises.org/index.php?id=2,2015-07-28.
  [7]US.Food and Drug Administration[EB].http:∥www.fda.gov/,2015-07-28.
  [8]中国经济网[EB].http:∥www.ce.cn/,2015-07-28.
  [9]中国国家统计局数据库[EB].http:∥data.stats.gov.cn/,2015-07-28.
  [10]World Health Organization.Global status report on alcohol and health 2014[EB].http:∥www.who.int/substanceabuse/publications/globalalcoholreport/en/,2014-05-12.
  [11]生物谷.中国首个生物资源“样本库目录”上线[EB].http:∥news.bioon.com/article/6671602.html,2015-07-27.
  [12]程颖.数字资源元数据质量管理的研究与探索[J].图书馆,2015,(7):66-69.
  (本文责任编辑:郭沫含)
其他文献
〔摘 要〕当下,太阳能开发利用技术及其推广应用突飞猛进,成为全球发展最快的能源,世界各国都将太阳能资源利用作为国家可持续发展战略的重要内容,以平板太阳能、太阳能热发电、太阳能空调等为代表的太阳能热利用产业蓬勃发展。本文以中国太阳能热利用产业专利数据分析与决策支撑平台建设为例,着力探析国家、省、市科技情报机构三级联动共推平台建设的最佳模式,以期为政府领导决策、企业科技创新和中国太阳能热利用产业的健康
〔摘 要〕介绍创客空间的概念,图书馆创客空间的兴起,发展历史,研究图书馆与创客空间的关系,空间规划等,以美国Westport图书馆和中国科学院为成功案例,得出创客空间和创客文化赋予图书馆新的服务内容,创客空间为图书馆转型提供了机遇的结论。  〔关键词〕创客;创客空间;创客文化;图书馆服务  DOI:10.3969/j.issn.1008-0821.2014.02.011  〔中图分类号〕G251
6月20日,留学语培机构“土豆教育”宣布获得近千万美元Pre-A轮投资,由真格基金和SIG共同投资。据悉,本轮融资将用于学习体系搭建、用户流量获取和产品持续投入。  土豆教育是“雅思天后”刘薇于2017年11月创立,为学习者提供在线语培服务。  土豆教育的产品包括两方面:土豆雅思App和土豆圖书出版。近日,土豆教育将产品升级为“Fast Pass”。新的课程体系包括稳步班、快速班和极速班三种大班课
为了凝聚团队力量, 提高团队协作能力,2019年6月30日,四海易家全體人员前往石景山拓展基地进行拓展训练。此次活动对锻炼员工的坚强意志,增强员工团队凝聚力和整体向心起到了良好的促进作用。  6月30日,全体成员来到石景山活动现场,在进行了破冰行动后,为期两天的拓展活动也就此拉开序幕。活动期间,四海易家的员工被分为两队,各队分别设计了队名,制作队旗,编排了团队造型,这就是我们的“平头哥队”和“战狼
Philinter位于宿雾市麦丹岛上,是一间已有16年历史的语言学校。从宿雾机场抵达学校,仅需10分钟的车程,十分便捷。该校最多能容纳200余名学生,目前有中国学生20多人。  学校以ESL课程为主,普通ESL课程,每天有8节课,其中4节是一对一面授课程,其余4节课为小组课和团体课,一般2-8人。普通ESL课程最短可接受1周学习周期。此外,学校还提供1-3周的短期游学项目、雅思保过班、商务英语班等
〔摘 要〕通过收集国际知识建构研究领域的期刊文献,以研究机构、国家、关键词等作为关键变量,绘制出国际知识建构研究领域的知识图谱。结果发现,国际知识建构研究领域研究者主要分布在美国、中国和英国的大学;知识建构研究领域分别形成了以香港大学等4所大学为核心的研究机构凝聚子群;知识建构研究领域的热点主要集中在知识建构本质及其形式、知识建构模型、知识建构教学实践、知识建构环境4个方面;研究前沿主要包括计算机
[摘要]文章对中国知网近10年机构知识库相关文献进行定量分析,采用Ucinet、Pajek等可视化软件,结合社会网络分析等方法,绘制了作者、机构、期刊与关键词等网络知识图谱。基于知识图谱视角,更为直观地分析了国内机构知识库研究现状,较为准确地揭示了国内研究热点,对国内外机构知识库的研究现状和研究热点进行了对比和分析。  [关键词]机构知识库;知识图谱;IR  DOI:10.3969/j.issn.
〔摘 要〕微博依靠其较强的信息扩散能力成为众多企业进行线上营销的主要渠道。较高的微博影响力水平对企业营销信息的推广传播具有一定的推动作用,而电信运营商的官方微博尚存在影响力较为欠缺的情况。本文首先通过文献研究、因子分析等方法归纳聚合出3个微博影响力的主要因素,据此构建了微博影响力评价指标体系。因子分析的结果表明微博账号的信息传播能力对微博影响力的方差贡献率最高,其次为账号活跃度。最后,本文基于因子
[摘要]本文从我校研究生信息素质现状及高校图书馆开展信息素质教育的优势入手,构建了U—IL泛在式研究生信息素质教育模式,并以研究生《科技文献检索》课程为实践平台,阐述了该模式的具体实现途径。  [关键词]泛在;创新;研究生;信息素质  [中图分类号]C40-012;GZ58.6 [文献标识码]C [文章编号]1008-0821(2011)02-0125-03    创新是人类特有的认识能力和实践能
[摘要]为了研究微博中情绪因素对用户转发行为的影响,构建了情绪因素对转发行为影响的假设,并建立了相关的回归方程,最后以“马航飞机失踪”和“李某某案件”两个微博热门话题作为研究样本集,利用负二项回归分析进行了假设检验,结果表明:相比于中立性的微博,带有情绪色彩的微博更容易得到转发和传播,并且情绪对于微博的转发数量和转发速度都有积极的影响。  [关键词]社会媒体;情绪;转发;新浪微博  [中图分类号]