论文部分内容阅读
针对目标资源,将其概念类、属性、实例以及其他元数据标注出来的过程称为语义标注。一个典型的语义标注过程是将待标注文档和本体输入标注系统,标注系统从本体得到语义信息,并在目标文档上添加语义信息,最终输出标注后文档。进行语义标注后,文档可由计算机可读的状态升级为其语义信息可被计算机理解的状态。依据语义标注过程中人工参与度高低,可将语义标注方法分为人工语义标注、半自动语义标注和自动语义标注。人工标注和半自动标注虽然标注较为精准,但在当今信息资源爆炸的情况下,已呈现出显著的弊端,标注耗时,效率低下,在大批量的语义标注工作中,无法完全采用人工标注来实现,因此针对自动语义标注的研究受到了越来越多的关注。语义标注是语义网技术的基础,而语义标注自动化技术的滞后已经成为语义网技术进展的障碍。通过对涉及语义网的相关技术的详细介绍,包括语义网基础理论、体系结构、语义网和万维网的区别、本体理论等,本文阐述了语义网和语义标注的研究现状、语义标注同与本体的关系等,着重分析了期刊论文的结构特征,并针对其特点设计了一种语义标注方法,将期刊论文划分为粗、中、细三个粒度层次,提出针对不同粒度层次分别进行语义标注。针对目前自动语义标注存在的问题,本文提出的针对期刊论文的多粒度语义标注包括以下步骤:(1)获取期刊论文各粒度文档数据;(2)从本体中提取用户自定义词典,添加到中文分词系统中;(3)在建立自定义词典的基础上,识别出不同粒度文档中的概念、属性及实例;(4)使用RDF框架对所识别的概念、实例、属性和属性值进行组配,形成RDF三元组;(5)在RDF三元组组配的基础上,形成RDF文档。在对语义标注的效果进行实证及评估方面,本文设计了针对期刊文献的多粒度语义标注实验。在实验中,针对某领域的期刊文献,进行多粒度的数据的获取,概念、属性和实例识别,最终组配RDF三元组,形成RDF文档。结果表明,采用本文所提出的方法,可以针对领域内期刊文献进行良好的语义标注,同时弥补了人工语义标注的低效,也保证了一定的标注准确度。