面向期刊论文的多粒度语义标注方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jojoy9912004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目标资源,将其概念类、属性、实例以及其他元数据标注出来的过程称为语义标注。一个典型的语义标注过程是将待标注文档和本体输入标注系统,标注系统从本体得到语义信息,并在目标文档上添加语义信息,最终输出标注后文档。进行语义标注后,文档可由计算机可读的状态升级为其语义信息可被计算机理解的状态。依据语义标注过程中人工参与度高低,可将语义标注方法分为人工语义标注、半自动语义标注和自动语义标注。人工标注和半自动标注虽然标注较为精准,但在当今信息资源爆炸的情况下,已呈现出显著的弊端,标注耗时,效率低下,在大批量的语义标注工作中,无法完全采用人工标注来实现,因此针对自动语义标注的研究受到了越来越多的关注。语义标注是语义网技术的基础,而语义标注自动化技术的滞后已经成为语义网技术进展的障碍。通过对涉及语义网的相关技术的详细介绍,包括语义网基础理论、体系结构、语义网和万维网的区别、本体理论等,本文阐述了语义网和语义标注的研究现状、语义标注同与本体的关系等,着重分析了期刊论文的结构特征,并针对其特点设计了一种语义标注方法,将期刊论文划分为粗、中、细三个粒度层次,提出针对不同粒度层次分别进行语义标注。针对目前自动语义标注存在的问题,本文提出的针对期刊论文的多粒度语义标注包括以下步骤:(1)获取期刊论文各粒度文档数据;(2)从本体中提取用户自定义词典,添加到中文分词系统中;(3)在建立自定义词典的基础上,识别出不同粒度文档中的概念、属性及实例;(4)使用RDF框架对所识别的概念、实例、属性和属性值进行组配,形成RDF三元组;(5)在RDF三元组组配的基础上,形成RDF文档。在对语义标注的效果进行实证及评估方面,本文设计了针对期刊文献的多粒度语义标注实验。在实验中,针对某领域的期刊文献,进行多粒度的数据的获取,概念、属性和实例识别,最终组配RDF三元组,形成RDF文档。结果表明,采用本文所提出的方法,可以针对领域内期刊文献进行良好的语义标注,同时弥补了人工语义标注的低效,也保证了一定的标注准确度。
其他文献
通过顶空进样器样品瓶平衡温度和平衡时间的优化;将自动顶空进样器和气相色谱仪联用,使用DB-624UI毛细管色谱柱,ECD检测器对生活饮用水中12种挥发性卤代烃含量进行同时分析测定
文章结合访谈和调查问卷,开展合成毒品预防教育成效的横断面研究。首先根据毒情程度,将调查地区划分为毒情严重地区、毒情一般地区和毒情轻微地区;再根据每类地区的人口数,按
阀门是石油、化工、电站、长输管线、造船、核工业、各种低温工程、宇航以及海洋采油等国民经济各部门不可缺少的流体控制设备。随着阀门使用条件的日益严酷,其耐久性和可靠
目的通过对昆明市嵩明县、安宁市和晋宁县新型农村合作医疗的调查研究,全面了解三县新农合的运行情况,综合评价三县新农合运行的成功和不足之处,有针对性地提出对策建议,为进
城市化是人类文明发展的自然历史过程。而我国城市化的快速发展在给人类带来巨大经济效益的同时,也造成一系列负面影响,如人口膨胀、资源短缺、环境污染、一系列社会问题等。
党的十七大报告指出:“改革开放以来我们取得的一切成绩和进步的根本原因,归结起来就是:开辟了中国特色社会主义道路,形成了中国特色社会主义理论体系。”“中国特色社会主义
本文对一系列黑茶的化学成分及其抗氧化性进行了研究。利用气相色谱-质谱联用法(GC-MS)分析黑茶中的挥发性成分;利用紫外分光光度法测定其茶多酚、黄酮类化合物、茶绿色素、
目的探讨LPP(Lim domain containing preferred translocation partner in lipoma)基因多态性与中国蒙古族人群白癜风患者的遗传相关性。方法收集425例蒙古族白癜风及503例蒙
近些年对信息行为的相关研究无论从深度上还是广度上都已经有所成就,借鉴心理学、社会学及人类学等相关学科的基础理论方法形成了很多理论体系,一部分是基于认知的信息行为研
数字技术的飞速发展,推动着广告创意表现由单一、静态化向互动化、精准化方向发展,广告正在实现创意、传播和营销“三位一体化”。本文分析了数字空间中广告创意表现的新特征,并