论文部分内容阅读
“人文计算”是一个将现代信息技术融入到传统人文社会科学研究中的交叉研究领域。随着“互联网+”,概念的兴起,数字化浪潮持续推进,“人文计算”已成为情报学、语言学和中文信息处理领域的重要研究课题。近几年来,情报语言学界更是涌现了一批古籍数字化、古汉语文献语料库资源建设等人文计算领域的新项目。当前,现代汉语相关的信息处理研究已经深入到篇章层面,但古代汉语相关的信息处理大多仍停留在字处理的阶段,因而,对古代汉语词汇级层面的相关知识进行探索,对于我们完善现有的古汉语信息处理研究体系具有十分重要的现实意义。本文中的上古文献指的是先秦时期的古汉语文献,在研究过程中,运用了语料库、人文计算、机器统计模型、复杂网络等领域的相关知识,开展了古汉语文献词汇级层面的知识挖掘工作。本文的总体研究目标就是融合数字人文的思想开展先秦古汉语词汇级层面的知识挖掘研究,运用情报语言学领域内的多种研究方法,探寻上古文献语料库中蕴含的有用知识,研究结果一方面可以帮助人们探索汉语言的发展历史和规律,另一方面为古汉语信息处理以及情报知识发现服务。本文的研究都是基于由25部具有代表性的先秦古文献所构建的上古汉语语料库开展的,主要研究内容包括如下三个部分:一是进行上古文献的古汉语语料库构建标注研究,这部分首先介绍了这25部先秦古文献的基本情况,接着分别介绍了古汉语语料库、古汉语分词、古汉语词性标注以及命名实体识别的相关知识,最后选取语料库中的部分上古文献进行了简单的字词分布统计,并对其中的内部规律作了分析;二是基于条件随机场模型与古汉语语言规则相结合的方法进行古汉语的分词及词性训练模型研究,这部分首先详细介绍了条件随机场模型的相关知识以及如何对古汉语语料进行预处理、如何选取特征模板,然后针对上古汉语语料库设计了基于条件随机场模型的封闭性测试及开放性测试两组对比实验,在这两组对比实验的基础上又开展了子实验,最终显示,封闭性测试得到的调和平均数(F)的数值在99%左右,开放性测试得到的调和平均数(F)的数值在90%左右,两组实验都取得了比较理想的效果;三是运用复杂网络开展古汉语词汇概貌研究,这部分首先介绍了语言网络的相关概念和常用的统计指标,然后介绍了 3个常见语言网络,实验环节选取部分上古文献验证了古汉语文献是否满足齐普夫分布,并选取相关上古文献通过Pajek软件构建了古汉语词汇网络,通过分析古汉语词汇网络中的常用统计指标判断古汉语网络是否具有小世界特性。