先秦人名知识库的构建

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:xuelun2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本研究围绕先秦人名知识库的构建,进行了初步系统的分析和实验。主要内容包括识别先秦人名及其所属诸侯国、构建异名同指和同名异指语料库、构建先秦人名知识库等相关技术。具体做了以下几项工作:   (一)基于机器学习的先秦人名识别   先秦人名和现代人名的构成方式和上下文语境有很大不同。本研究以先秦文献《左传》为突破口,对书中的人名进行观察和统计分析,挖掘其内部构成规律及其分布特征,并且利用CRF模型对先秦人名进行了识别。   (二)基于机器学习和规则相结合的人名所属诸侯国识别   先秦时期,先后出现了二百多个诸侯国,识别出每个人所属的诸侯国对于历史知识检索有其必要性。本研究首先分析了人工判断人名国别和诸侯国识别的难点,然后利用人名所属诸侯国的上下文长距离依赖关系,运用机器学习的方法对人名所属诸侯国进行识别,最后利用两条启发式的规则纠正了部分误识别的情况,取得了较好的识别效果。   (三)构建先秦异名同指和同名异指语料库   先秦文献中存在着大量异名同指和同名异指的情况,这给阅读和理解先秦文献带来了极大的不便,也给信息检索带来了困难。因此,构建一个异名同指和同名异指的语料库就显得十分必要。本研究以自动标注为主,手工校对为辅,参考多本古籍文献,构建了先秦异名同指和同名异指语料库。   (四)构建先秦人名知识库   先秦人名知识库主要由人名表和人物表构成。人名表主要是为了便于查找人名,表中只有两个字段,即人物ID和人名。如果要了解该人的详细资料,则需要根据编号到人物表里面去查找。人物表包括:人物ID、人名、性别、诸侯国、生年、卒年、即位之年、退位之年、身份等。   文章最后对整个系统进行了整合,实现了半自动化地构建人名知识库,并对知识库中的部分知识进行了统计分析。     
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
中邮创业基金绝对是国内70家基金公司中最有性格的基金公司之一,在过去六年多的时间里,这家基金留给市场的印象是“猛追猛打”、“风格激进”。这种彪悍、激进的操作风格遇到
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
本文在hB树基础上提出多属性索引方法--hB*树.hB*树索引结点溢出时先寻求避免分裂,以期得到较好的空间利用率;通过避免和消除多父结点,使hB*树成为严格的树形结构.本文表明hB
新历史小说以虚构为灵魂,以文学话语为肌质,作品表现出特有的艺术审美特性,而以家族史替代重大的政治历史事件成为新历史小说最主要的题材内容。新历史小说的家族叙事既是对
学位
王世利1965年生于辽宁,学于中央美术学院国画系,结业于中国美术家协会首届山水画高研班。现为中国美术家协会会员、中国民主建国会会员、国家一级美术师、中国山水画研究院研
本文研究的对象是动、名语素组合成的离合词,研究的范围是《现代汉语词典》(第五版)中所收录的能插入其他成份的双音节词语。文章着眼于对动、名语素组合成的离合词的语义构
《义务教育语文课程标准》指出:写作是运用语言文字进行表达和交流的重要方式,是认识世界、认识自我、进行创造性表达的过程,写作能力是语文素养的综合体现。由此可见,写作在
本文提出了一个离散型Hopfield网联想记忆学习算法,该算法增加了训练样本的维数,因而能存储任意给定的训练模式集.实验结果也证明了该方法的有效性.
在量子理论的框架内,利用含强激光场的二级相对论修正的运动方程,采用直接数值解法,着重研究了强激光场和Debye屏蔽库仑场下荷电粒子的碰撞截面及其与激光脉冲波形、频率、强度和屏蔽