论文部分内容阅读
汉语韵律预测对合成语音的自然度起着重要作用,本文的研究重点是如何提高韵律层级结构的预测准确率。以往基于统计的韵律结构预测模型,在输入特征的选取中往往使用POS (Part of Speech)词性特征,POS特征为浅层信息,无法利用词语的语义信息,且选取的特征因为词与词之间缺乏关联,往往会形成“词汇鸿沟”现象,导致即使同义词也无法表现出相应的关联性。因此,需要使用一种能体现词语关联性的表达方式作为模型的输入特征。在模型选择上,隐马尔科夫模型、决策树模型虽然在韵律结构预测中取得了成功,但会产生适用范围窄、过拟合等问题。随着数据复杂性越来越大,需要使用一种对数据建模能力更强的模型方法,而深度神经网络对复杂数据有很好的建模能力。因此,本文围绕以词向量为输入特征的基于深度神经网络模型的韵律结构预测模型展开研究。本文一方面对词向量进行训练,由词向量构建韵律词向量,采用复合向量作为模型的输入;另一方面,对传统神经网络模型进行了改进,使神经网络的隐藏层能更好的捕捉词与词之间的交互联系。主要工作包括:(1)配置Gensim词向量训练模块,通过Gensim模块训练词向量,利用训练后的词向量学习韵律词向量,通过不同层级的向量来抓取上下文中的韵律层级信息;(2)利用韵律层级标注数据训练神经网络模型,使用词典词向量、韵律词向量、前词韵律层级向量和当前词的词长向量作步输入特征,通过在模型的输入层使用复合输入特征来提高模型的预测能力;(3)对模型隐藏层进行改进,在隐藏层中添加张量矩阵,通过张量矩阵捕捉词与词之间、不同韵律层级之间的联系,分别从窗口长度、空间维度、隐藏层单元数量、输入特征等方面对模型的韵律结构预测能力进行验证。实验结果显示:多向量结合的复合输入特征与单一词向量作为输入特征的预测结果相比,韵律词的错误率降低了3.2%(从15.3%降至12.1%),而韵律短语的错误率降低了5%(从40.3%降至35.3%);隐藏层中添加张量矩阵之后,韵律词的错误率降低了0.5%(从12.1%降至11.6%)。实验结果表明:复合输入特征能有效改善韵律预测的错误率;带有张量矩阵的隐藏层与普通隐藏层相比,能够更好地捕捉韵律层级之间的信息。