论文部分内容阅读
命名实体识别任务作为自然语言处理领域中的一项基本任务,其对于文本的理解和翻译均具有积极的推动作用。由于不同语言之间的差异性使得传统中英文命名实体技术难以移植到柬埔寨语上。为了丰富柬埔寨语自然语言处理工作的理论和应用,本文使用BiLSTM-CRF模型进行柬埔寨语命名实体识别的研究,并将基于HDP主题模型得到的主题词向量作为BiLSTM神经网络的输入特征。本文的主要工作具体如下:(1)针对单一词向量中存在的一词多义和一义多词的问题,提出了一种基于HDP主题模型的主题词向量的构造方法。该方法是在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-gram模型同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得更好的效果,因而本文获取的主题词向量具有更多的语义信息。(2)针对传统命名实体方法过多依靠人工特征工程的问题,提出了基于BiLSTM-CRF神经网络的柬埔寨语命名实体识别方法。该方法一方面使用融有主题信息和词信息的主题词向量作为BiLSTM神经网络模型输入特征,另一方面针对BiLSTM神经网络模型输出没有考虑输出标签之间的顺序性,造成实体识别效果不良,本文将BiLSTM神经网络模型的输出与柬埔寨的实体特征一起作为CRF模型的输入特征,利用CRF模型实现柬埔寨语命名实体识别。通过实验结果表明该方法能够使柬埔寨语的命名实体识别效果得到提高。(3)构建基于BiLSTM-CRF神经网络的柬埔寨语命名实体识别原型系统,根据实验采集的语料以及实验得到的结果,设计并开发了多特征神经网络的柬埔寨语命名实体识别原型系统,介绍了系统搭建所需工具和系统框架,详细阐述了系统的设计过程,并对柬埔寨语的命名实体识别结果进行了展示。