基于主题模型词向量的柬埔寨语命名实体识别

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:gbcying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别任务作为自然语言处理领域中的一项基本任务,其对于文本的理解和翻译均具有积极的推动作用。由于不同语言之间的差异性使得传统中英文命名实体技术难以移植到柬埔寨语上。为了丰富柬埔寨语自然语言处理工作的理论和应用,本文使用BiLSTM-CRF模型进行柬埔寨语命名实体识别的研究,并将基于HDP主题模型得到的主题词向量作为BiLSTM神经网络的输入特征。本文的主要工作具体如下:(1)针对单一词向量中存在的一词多义和一义多词的问题,提出了一种基于HDP主题模型的主题词向量的构造方法。该方法是在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-gram模型同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得更好的效果,因而本文获取的主题词向量具有更多的语义信息。(2)针对传统命名实体方法过多依靠人工特征工程的问题,提出了基于BiLSTM-CRF神经网络的柬埔寨语命名实体识别方法。该方法一方面使用融有主题信息和词信息的主题词向量作为BiLSTM神经网络模型输入特征,另一方面针对BiLSTM神经网络模型输出没有考虑输出标签之间的顺序性,造成实体识别效果不良,本文将BiLSTM神经网络模型的输出与柬埔寨的实体特征一起作为CRF模型的输入特征,利用CRF模型实现柬埔寨语命名实体识别。通过实验结果表明该方法能够使柬埔寨语的命名实体识别效果得到提高。(3)构建基于BiLSTM-CRF神经网络的柬埔寨语命名实体识别原型系统,根据实验采集的语料以及实验得到的结果,设计并开发了多特征神经网络的柬埔寨语命名实体识别原型系统,介绍了系统搭建所需工具和系统框架,详细阐述了系统的设计过程,并对柬埔寨语的命名实体识别结果进行了展示。
其他文献
油源断裂作为将下伏源岩生成的油气运移至上覆储层中成藏的主要输导通道,是本文的研究目标。但目前对油源断裂附近油气聚集部位和富集程度仍缺少定量的评价。所以,本文进行油
近年来,随着战场信息化程度不断提高,各类传感器采集的图像情报数量不断增加,图像情报目标检测和场景识别已经成为军事领域的研究热点。针对海量的图像情报数据,利用计算机提
随着机器人技术、生命科学工程和精密光学工程等领域的迅速发展,精密操控技术已经成为制约上述领域进一步发展的关键因素。机器人关节作为直接影响精密操控系统整体品质的核
β晶型聚丙烯具有更好的抗冲击性能、更高的热变形温度,近年来,受到了研究者的广泛关注。添加β成核剂是目前工业上制备β晶型聚丙烯最常用的手段,然而现有无机或有机小分子
合成孔径雷达(Synthetic Aperture Radar,SAR)成像技术突破了天气、光照等因素的限制,实现了全天时、全天候地高分辨率成像。当今,合成孔径雷达成像技术在国防军事、地质探测、
本文针对木55区块地质储层特点以及该区块在钻井施工过程对钻井液各项性能的具体要求,设计研发了该甲酸盐钻井液体系,并进一步明确了该甲酸盐钻井液体系的工作原理。在室内通
大型油气藏的形成,除了要有充足的油气资源供给、良好的储集层和有效的输导通道外,盖层封闭油气的能力更为重要,只有在这样的条件下,进入圈闭中的油气才能得以聚集,并保存下
图像目标检测是计算机视觉领域最重要,也最具有挑战性的难题之一,它为更高层次的视觉任务做准备。图像特征提取是图像目标检测的关键。卷积神经网络可以从大量图像数据中自动
增强现实是将虚拟信息与现实环境相结合来实现交互的可视化技术,作为新兴技术在近些年得到快速地发展。增强现实技术主要包括跟踪注册技术、虚实融合技术以及实时交互技术,而
在空域范畴中,对激光光场的振幅、相位、偏振态、空间相干性和轨道角动量等有关表征参量进行调控,可以获得上述参量独特分布的结构光场。结构光场的许多独特性质在实际应用中