基于上古文献的词汇级语义知识挖掘研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:edwardlj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“人文计算”是一个将现代信息技术融入到传统人文社会科学研究中的交叉研究领域。随着“互联网+”,概念的兴起,数字化浪潮持续推进,“人文计算”已成为情报学、语言学和中文信息处理领域的重要研究课题。近几年来,情报语言学界更是涌现了一批古籍数字化、古汉语文献语料库资源建设等人文计算领域的新项目。当前,现代汉语相关的信息处理研究已经深入到篇章层面,但古代汉语相关的信息处理大多仍停留在字处理的阶段,因而,对古代汉语词汇级层面的相关知识进行探索,对于我们完善现有的古汉语信息处理研究体系具有十分重要的现实意义。本文中的上古文献指的是先秦时期的古汉语文献,在研究过程中,运用了语料库、人文计算、机器统计模型、复杂网络等领域的相关知识,开展了古汉语文献词汇级层面的知识挖掘工作。本文的总体研究目标就是融合数字人文的思想开展先秦古汉语词汇级层面的知识挖掘研究,运用情报语言学领域内的多种研究方法,探寻上古文献语料库中蕴含的有用知识,研究结果一方面可以帮助人们探索汉语言的发展历史和规律,另一方面为古汉语信息处理以及情报知识发现服务。本文的研究都是基于由25部具有代表性的先秦古文献所构建的上古汉语语料库开展的,主要研究内容包括如下三个部分:一是进行上古文献的古汉语语料库构建标注研究,这部分首先介绍了这25部先秦古文献的基本情况,接着分别介绍了古汉语语料库、古汉语分词、古汉语词性标注以及命名实体识别的相关知识,最后选取语料库中的部分上古文献进行了简单的字词分布统计,并对其中的内部规律作了分析;二是基于条件随机场模型与古汉语语言规则相结合的方法进行古汉语的分词及词性训练模型研究,这部分首先详细介绍了条件随机场模型的相关知识以及如何对古汉语语料进行预处理、如何选取特征模板,然后针对上古汉语语料库设计了基于条件随机场模型的封闭性测试及开放性测试两组对比实验,在这两组对比实验的基础上又开展了子实验,最终显示,封闭性测试得到的调和平均数(F)的数值在99%左右,开放性测试得到的调和平均数(F)的数值在90%左右,两组实验都取得了比较理想的效果;三是运用复杂网络开展古汉语词汇概貌研究,这部分首先介绍了语言网络的相关概念和常用的统计指标,然后介绍了 3个常见语言网络,实验环节选取部分上古文献验证了古汉语文献是否满足齐普夫分布,并选取相关上古文献通过Pajek软件构建了古汉语词汇网络,通过分析古汉语词汇网络中的常用统计指标判断古汉语网络是否具有小世界特性。
其他文献
如今在电气自动化技术中,应用无功补偿技术已经成为一种发展趋势,它能够很好的解决电气自动化系统工作过程中遇到的一些问题,因此研究该技术的特点及实现方式是非常必要的。
目的探讨MR对主动脉缩窄的诊断价值。方法对35例临床怀疑为主动脉缩窄的患者进行MR扫描,均行横轴位、冠状位、矢状位、亮血黑血技术扫描,及电影序列。结果35例患者,经MR检查,均确
针对石化企业MES系统中的历史数据库部分,介绍了用VC实现从PHD实时数据库到ORECLE的历史数据存储;在石油炼油与化工运行系(MES)实施中,PHD实时数据库是系统的一个模块,通过自带的RD
<正>2016年11月30日,由国网江苏省电力公司自主研发的应用云平台在该公司上线运行。该应用云平台利用云中间件技术,通过整合全部计算资源并进行池化,简化应用系统上线、版本
在互联网金融和互联网经济的创新发展过程中,大学生的财商教育日益受到高校教育教学的重视。刘长江编著的《哈佛财商课》(2017年5月吉林文史出版社出版)详细地介绍和论述了哈
目的:观察独活寄生汤联合塞来昔布治疗膝关节骨性关节炎的临床疗效。方法:选择2013年4月—2015年4月来我院就诊的KOA患者120例,随机分为治疗组和对照组,每组60例。对照组给予
目的研究山莨菪碱对肿瘤坏死因子(TNFα)诱导的血管内皮细胞胞内游离Ca2+浓度([Ca2+]i)变化的影响,以探讨山莨菪碱抗感染性休克的机制.方法人脐静脉内皮细胞株(ECV304)接种于