论文部分内容阅读
互联网技术的蓬勃发展,使得各学科领域的知识数据进一步沉淀,构成一个巨大的知识体系。知识体系正成为各行各业知识管理和知识服务的基础,领域知识体系的探测、构建已经成为科学计量学、图书情报学等领域的重要研究内容之一。本文先对领域知识体系以及知识元的概念进行了界定,明确了面向领域知识体系构建的知识元表现形式,即以三元组的形式表示知识元。从知识元名称、知识元定义以及知识元之间的关系三个方面定义知识元,并以此确定本文基本任务为:知识元命名实体抽取、知识元定义抽取以及知识元关系抽取。本文分别通过无监督的C-Value算法和有监督的条件随机场模型进行知识元实体的识别。C-Value算法是一种快速、有效的无监督的实体识别方法。对实验的结果进一步分析发现,通用的C-Value算法存在较为突出的问题:即对于高词频的非知识元实体以及低词频的知识元实体识别效果较差。进一步通过构建领域词典以及优化原C-Value算法系数的方式,使得该方法的Top500准确率和召回率分别达到78.60%和75.54%。本文还进一步地利用条件随机场模型进行知识元实体识别,其关键在于特征集的构建。通过构建词特征、领域词典特征、以及上下文特征,最终基于条件随机场的知识元实体识别的召回率达到0.9693。在知识元实体识别的基础上进一步进行知识元定义抽取和关系抽取。为丰富语料库,本文引入可维基百科和知网问答的相关语料,并制定了7条定义句匹配规则和2条排除规则。在定义句的选取上,通过对比实验证明基于Word2Vec的相关度计算方法更为科学。定义抽取的准确率最终达到了88.00%。关系抽取方面,先通过Doc2Vec识别无关关系,进一步利用支持向量机(SVM)模型实现同一关系和隶属关系的抽取。SVM中涉及到特征包括词特征、实体交迭特征和句法特征。