面向领域知识体系构建的知识元抽取研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zhou414663000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的蓬勃发展,使得各学科领域的知识数据进一步沉淀,构成一个巨大的知识体系。知识体系正成为各行各业知识管理和知识服务的基础,领域知识体系的探测、构建已经成为科学计量学、图书情报学等领域的重要研究内容之一。本文先对领域知识体系以及知识元的概念进行了界定,明确了面向领域知识体系构建的知识元表现形式,即以三元组的形式表示知识元。从知识元名称、知识元定义以及知识元之间的关系三个方面定义知识元,并以此确定本文基本任务为:知识元命名实体抽取、知识元定义抽取以及知识元关系抽取。本文分别通过无监督的C-Value算法和有监督的条件随机场模型进行知识元实体的识别。C-Value算法是一种快速、有效的无监督的实体识别方法。对实验的结果进一步分析发现,通用的C-Value算法存在较为突出的问题:即对于高词频的非知识元实体以及低词频的知识元实体识别效果较差。进一步通过构建领域词典以及优化原C-Value算法系数的方式,使得该方法的Top500准确率和召回率分别达到78.60%和75.54%。本文还进一步地利用条件随机场模型进行知识元实体识别,其关键在于特征集的构建。通过构建词特征、领域词典特征、以及上下文特征,最终基于条件随机场的知识元实体识别的召回率达到0.9693。在知识元实体识别的基础上进一步进行知识元定义抽取和关系抽取。为丰富语料库,本文引入可维基百科和知网问答的相关语料,并制定了7条定义句匹配规则和2条排除规则。在定义句的选取上,通过对比实验证明基于Word2Vec的相关度计算方法更为科学。定义抽取的准确率最终达到了88.00%。关系抽取方面,先通过Doc2Vec识别无关关系,进一步利用支持向量机(SVM)模型实现同一关系和隶属关系的抽取。SVM中涉及到特征包括词特征、实体交迭特征和句法特征。
其他文献
我国杏鲍菇栽培面积广阔,但杏鲍菇栽培产生了大量的废弃菌糠,大部分菌糠是通过丢弃或焚烧方式处理,造成了环境污染和资源浪费等问题,随着食用菌种植范围扩大,这一问题日渐突出。另外,我国奶牛等反刍动物养殖规模的不断扩大,优质粗饲料供需矛盾突出。据报道杏鲍菇菌糠中含有丰富的粗蛋白、粗脂肪、粗纤维、多糖等反刍动物生理代谢所需的营养成分,是一种较好的动物粗饲料原料,但杏鲍菇菌糠中所含粗纤维过高,阻碍了动物对营养
科研项目是高校学术任务的核心和综合实力的体现,对其进行科学高效的管理是十分必要的。本文首先论述了高校科研项目及其管理的特征,其次以依托高校建设的工程技术研究中心为
针对柔性驱动器的自主创新性需求,本文设计了一种结构紧凑、响应速度快、可实现力位解耦控制的电磁式柔性直线驱动器。根据电磁作动原理完成了柔性驱动器的概念设计,该柔性驱
XUV-5000光固化炉是液晶显示器生产线后工序的重要生产设备。介绍了基于触摸屏和PLC的XUV-5000光固化炉控制系统设计原理、应用以及触摸屏人机界面的设计。重点突显本监控系
在几乎所有的分析过程中,特别是复杂样品分析方面,样品前处理都是至关重要的步骤。多巴胺分子在弱碱性条件下易于发生自聚合反应,生成的聚多巴胺(PDA)涂层容易在各种表面上沉积
利用平原区朱家河流域降水量实际观测资料,对流域内降水变化特征进行分析。阐明朱家河流域降水空间分布较均匀,降水量自东向西略有减小;降水量年际变化差异较大,最大年降水量
1市场分析1.1半导体专用设备根据SEMI的报告,2010年中国大陆半导体设备市场为22.4亿美元,预计2011年为26.4亿美元。如果按照这样的增长率推算,到2015年,我国半导体设备市场规
介绍了湿压缩燃气轮机的特点和增加循环功的机理,讨论了喷水位置对压缩过程的影响,针对理论分析和实验结果中喷水引起各参数变化规律做了总结和机理分析,提出了对燃气轮机喷
2009年中国自行车协会助力车专业委员会年会暨全国电动自行车信息交流会于10月22日下午在南京曙光国际大酒店举行。