古汉语编年体的人名实体识别与词性标注

来源 :复旦大学 | 被引量 : 0次 | 上传用户:wangpin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能中的重要领域,不但能够帮助人们从庞大的语言数据中提取出需要的信息,甚至能够理解语法语义并对其做出合理的应答。随着近十年来现代汉语的语言处理研究逐步进展,研究者们已经逐渐能够从现代汉语中抽提出有效的实体信息并进行简单的语法解析。然而古汉语作为中国的传统语言,同样有着智能处理的需要,古汉语文献中蕴藏着大量的历史资料需要被结构化的整理出来。本文以编年体《明史本纪》为范例,首次制作了详细词性标注的古汉语语料,并分别从基于统计与基于规则的角度尝试对其进行名词实体识别与词性标注实验。首先使用了在现代汉语中效率最高的序列模型条件随机场作为统计模型,并且根据古汉语的词法特征设计了多套标签模板以及图模型对语料分别进行了实体识别与词性标注实验。在实验中大部分词性的判断有着良好的结果,而且词性的标注对实体识别的效率有着很好的帮助。从实验结果中,还发现了未登录人名的判断效率要明显高于其他未登录词,从而暗示着编年体人名周围有着很强的规则。随后使用了基于规则的方法尝试对相同的语料进行人名识别。通过观察,发现了编年体裁中人物与官职的关联,并设计了所有含有官职与姓名的句式规则。通过这些规则实现的算法在测试结果中有着良好的表现,最后分析了漏检与错判的姓名的原因和规则中的不足。词性标注实验结果表明古汉语的信息处理不需要进行分词就可以达到较好的效果,但语料库与专有名词库的完整性对结果有着重要的影响。而人名识别的实验反映出编年体中的人名句式十分规则,能够精确的提取出绝大多数姓名,但对于其他体裁的处理则需要更深入的研究。
其他文献
中华文化博大精深、源远流长,五千年来伟大的中华民族创造了悠久灿烂的中华文化,为人类的发展做出了不可磨灭的历史贡献。图书文献对中华文化的薪火相传起到了重大作用,古往今来
<正>《中庸》云:"君子之道,辟如行远必自迩,辟如登高必自卑。"山东农业大学位于泰山脚下。秘书学专业的前身文秘教育专业,自2004年起招收本科生,是山东省办学最早的文秘教育
《高陈台湾白话圣经译本》(俗称《红皮圣经》)是台湾闽南方言圣经译本。它由天主教和新教徒共同合作翻译,历时7年,于1973年出版。本文主要通过音值转写法、比较法、统计法等
红色资源是中国特色社会主义先进文化的集中体现,其呈现方式鲜活生动,融思想性、艺术性和观赏性于一体,对大学生有着强大的吸引力、感染力。红色资源与社会主义核心价值观具
分析了进行企业进行逆向物流的必要性,分析了企业选择何种方式来进行逆向物流活动的决策影响因素,对第三方物流公司对于逆向物流活动影响的权重运用层次分析法进行了单个和复
目的观察沙利度胺对白塞氏病的临床疗效。方法选取2008年1月~2009年8月份住院的46例白塞病患者,随机分成两组。治疗组23例,服用沙利度胺100mg/d,对照组23例,服用柳氮磺胺吡啶2
授权是贯彻落实科学发展观“以人为本”的具体体现,是开展效能建设活动的有效手段,也是推行事业单位人事制度改革的必然结果。本文将从“明确改革宗旨,营造授权氛围”、“完善岗
本章首先分析了职业教育国际化发展存在的主要问题,然后从制定发展战略规划、提升职业院校内涵水平、构建国际化合作平台、培养&#39;双师型&#39;国际教学团队、加强职业院校
银屑病是一种以红斑、鳞屑为主要临床特点的慢性炎症性皮肤病,是目前皮肤科疾病中的常见病,多发病。本病发病的病因及发病机制复杂,多侵犯青壮年,红斑泛发全身,伴随大量脱屑,
<正>首先我就大家对此次活动所给予的支持表示感谢。江泽民同志指出,希望广大文化工作者高度重视文艺理论和文艺评论工作。文艺的发展离不开文艺理论的指导和文艺评论的促进,