【摘 要】
:
高速发展的自然语言处理技术已越来越频繁地在生活中应用,人们通过这种技术进行兴趣推荐、机器翻译以及制作问答系统等。现今自然语言处理应用都集中于英语或现代汉语上,但在
论文部分内容阅读
高速发展的自然语言处理技术已越来越频繁地在生活中应用,人们通过这种技术进行兴趣推荐、机器翻译以及制作问答系统等。现今自然语言处理应用都集中于英语或现代汉语上,但在古汉语的应用上还比较匮乏。之所以研究力度还不够是因为古汉语的和现代汉语之间存在一定的差别,大部分古汉语文本都是无结构化的数据,且同一个人物在同一部作品中存在使用不同名称的问题,如何将无结构化的古汉语文本转换并解决一人多名的问题是本文的重点。同时本文还提出了一种新型神经网络模型进行实体间的关系抽取,可以用于对古汉语知识图谱进行知识扩充。本文的研究重点在于古汉语数据的处理并根据获得的数据构建知识图谱,课题选取的语料为中国的古典文化著作,古汉语文本属于无结构化的数据,需要先对其进行数据清洗,将处理后的数据存储于图数据库中并实现查询或其他功能。我们使用小说作为原始语料,首先对其中的每一个句子进行分词,对分词之后的语句进行命名实体识别,之后利用第三方知识库对识别实体之后的数据进行关系标注获得结构化数据。该数据集由实体、实体间的关系以及实体所存在的语境构成,我们去除引入的部分噪声数据。之后在本实验中提出了一种算法,解决结构化文本中存在的一人多名问题。本文另一项工作是提出了一种新型的神经网络结构BLSTM-CNN运用在关系抽取任务中,模型的思想主要来源于双向长短期记忆网络和卷积神经网络,实验证明该模型在实体关系分类中表现优异,在经典的关系抽取任务SemEval2010_task8上取得了非常理想的效果,优于如今广泛使用且取得最好效果的基于自注意力机制的双向LSTM模型。之后将这种神经网络模型应用于清洗后的古汉语数据集进行关系预测任务。最后利用抽取结构化数据中的三元组,建立知识图谱,并对古汉语间的实体关系进行可视化展示。
其他文献
在第二代测序技术广泛应用之后,人类基因组测序数据以爆炸式的速度飞速增长。虽然第二代测序技术的广泛使用为相关研究累积了大量的测序数据,但是得到这些测序数据只是获取基因组中有效信息的基础,研究的最终目的是要发现这些碱基对的排列组合与个体表型和癌症疾病的相关关系。通过分析和研究基因组数据有助于人们了解人类基因的工作原理。第二代测序数据具有片段短,复杂度高等特点,这对基因组数据分析工作提出了更高的挑战。人
随着转基因作物科研力度的不断加大,我国转基因作物产业化的步伐也逐渐加快,转基因作物产业化的种类有望扩大,从转基因作物科研到转基因作物产业化的发展离不开法律制度的支
副职领导是我国党政机关内部的行政领导职务,肩负着极其重要的任务,既要辅佐好正职领导,又要体恤部属职工,在一定程度上,将副职领导当作单位内部组织管理运行的“润滑剂”、
民法作为市民社会的法律,其既围绕私人权利展开,又要回应现实问题,是一种包含经验理性市民立法。《民法总则》采用以功能性为导向的立法模式,虽更具开放性,然仍难免有待完善
在高新技术战争中,快速响应机制和联合作战模式已成为决定战争胜负的主要因素。联合作战的作战方案由指挥机关根据敌情和对策而制定,是作战过程和作战样式的基本设想,也是作
随着改革开放全面深化和市场经济的迅速发展,中国面临着严重的生态危机问题。习近平总书记面对当下我国生态文明建设的机遇和挑战,审时度势,站在历史的新起点,基于人类的共同
模糊测试技术是一种有效的漏洞挖掘方法,本文分析了当前模糊测试技术的特点和存在的问题,将模糊测试技术与分布式技术相结合,设计分布式模糊测试系统提高漏洞挖掘的效率。提
视觉目标跟踪技术主要是利用视频序列图像中视觉目标的时间连续性和空间连续性对目标进行跟踪,视觉目标跟踪技术在国防军事和保障居民安全等方面均有着广阔的应用前景。此外,其研究涉及计算机视觉和模式识别相关技术,具有重要的理论研究价值。然而视频中目标与背景都随时间变化,并受多种因素如光照变化、背景杂乱、目标模糊等的影响,这给视觉目标跟踪技术带来很大的挑战。近年来,深度学习方法从大量的数据进行网络训练,在目标
社交网络已经成为人们现代生活中必不可少的一个部分,逐渐改变了人们很多传统的习惯。人们浏览新闻的途径已经从纸张阅读逐步趋于线上,新闻媒体可以通过社交网络发表新闻评论
Gossip算法因其简单、高效、健壮,可扩展性和抗干扰能力强的特点,应用场景十分广泛。最初,Gossip算法只是通信领域信息传播的重要方法之一,但是随着去中心化网络的发展,Gossip算法的应用领域不断扩大。目前Gossip算法的应用有数据库复制、聚集计算、网络拓扑的构造、故障检测、网络监控、路由技术等。另外,Gossip算法还是区块链技术的底层协议之一。为了改善Gossip算法在信息传播过程中的