论文部分内容阅读
自动语言识别是语言处理和语言理解的第一步,如何较为准确地检测文本所采用的语言是许多自然语言处理任务(例如:文本自动分类、机器翻译和多语言数据采集等)的首要步骤。近年来,随着自动语言识别研究的逐渐深入,不同种类的语言已经可以达到较高的识别率,但对于语言变体识别而言,由于该类语言资源相对缺乏,语言之间距离较近,语言变体的自动识别仍是一项具有挑战性的任务。大中华区由于受地域、历史、文化、社会环境等因素影响,各地区使用的汉语存在词汇、语法、语用等方面的差异,属于广义现代汉语下的变体。不同于传统的语言学,本文主要从计算语言学和自然语言处理的角度出发,开展大中华区汉语变体识别研究,并着重分析了大中华区汉语变体之间的差异性,主要研究内容体现在以下两个方面:(1)构建集成经典文本分类方法的大中华区汉语变体识别模型本文将经典的文本分类方法,包括传统的机器学习方法和基于深度学习的方法,利用多数投票算法集成构建了一个新的大中华区汉语变体识别模型,并将模型运用在大中华区新闻书面语的识别上。在抓取的分类语料数据集上进行实验,结果显示本文构建的大中华区汉语变体识别集成模型可以综合单个模型的优势,从而取得更好的识别效果。(2)构建基于SENet(Squeeze-and-Excitation Networks)注意力机制的大中华区汉语变体识别模型受融入了注意力机制的经典单个文本分类模型启发,本文构建了一个基于SENet注意力机制的大中华区汉语变体识别模型,利用SENet注意力机制来捕捉大中华区汉语变体之间的差异性特征,动态的增加重要区分性特征词汇的权重。同时在训练中过程中还融入原始词向量特征。实验结果显示,与经典的文本分类方法相比,基于SENet注意力机制的大中华区汉语变体识别模型识别效果有显著提升,对实验结果详细的可视化分析也验证了注意力模型的有效性。