论文部分内容阅读
本研究围绕先秦人名知识库的构建,进行了初步系统的分析和实验。主要内容包括识别先秦人名及其所属诸侯国、构建异名同指和同名异指语料库、构建先秦人名知识库等相关技术。具体做了以下几项工作:
(一)基于机器学习的先秦人名识别
先秦人名和现代人名的构成方式和上下文语境有很大不同。本研究以先秦文献《左传》为突破口,对书中的人名进行观察和统计分析,挖掘其内部构成规律及其分布特征,并且利用CRF模型对先秦人名进行了识别。
(二)基于机器学习和规则相结合的人名所属诸侯国识别
先秦时期,先后出现了二百多个诸侯国,识别出每个人所属的诸侯国对于历史知识检索有其必要性。本研究首先分析了人工判断人名国别和诸侯国识别的难点,然后利用人名所属诸侯国的上下文长距离依赖关系,运用机器学习的方法对人名所属诸侯国进行识别,最后利用两条启发式的规则纠正了部分误识别的情况,取得了较好的识别效果。
(三)构建先秦异名同指和同名异指语料库
先秦文献中存在着大量异名同指和同名异指的情况,这给阅读和理解先秦文献带来了极大的不便,也给信息检索带来了困难。因此,构建一个异名同指和同名异指的语料库就显得十分必要。本研究以自动标注为主,手工校对为辅,参考多本古籍文献,构建了先秦异名同指和同名异指语料库。
(四)构建先秦人名知识库
先秦人名知识库主要由人名表和人物表构成。人名表主要是为了便于查找人名,表中只有两个字段,即人物ID和人名。如果要了解该人的详细资料,则需要根据编号到人物表里面去查找。人物表包括:人物ID、人名、性别、诸侯国、生年、卒年、即位之年、退位之年、身份等。
文章最后对整个系统进行了整合,实现了半自动化地构建人名知识库,并对知识库中的部分知识进行了统计分析。