论文部分内容阅读
在现实生活中,有很多场景需要对说话人的言语表达能力进行评估,比如:普通话考试、口语训练、语言教学评价、播音支持考试等。目前,这些场景大多数仍然采用人工打分的方式进行评估,这种评估方式往往缺乏公平性,并且耗时秏力,成本太高,整体效率低下。语言学习者也需要一种可以随时给予学习反馈的言语自动评估工具。目前的言语自动评估系统往往只参考语音层面的信息,没有涉及语义、语法等文本相关的内容,不能反映出说话人口语表达的全部信息。很多场景下,打分人员也往往只是给说话人反馈一个整体的分数,并没有进行多维度的评估。针对通用言语评估场景下的复杂数据,本文设计了一套规范有效的数据预处理流程。该流程包括三个部分:利用音频活动检测技术,对音频数据进行降噪处理,提升音频的质量;利用语音识别技术,对语音数据进行转录处理生成文本数据,为后续多模态言语评估方法的实现做了良好的铺垫;利用数据重采样技术,平衡了数据标签的分布。通过控制变量的方法设计对比实验,验证数据预处理流程的有效性。实验结果表明,本文设计的音频活动检测、语音识别、数据重采样三个数据预处理流程对言语自动评估模型的性能均有明显的提升。本文采用语音和文本联合学习的方式,提出了一种基于多模态的言语自动评估方法。这种方法以门控循环单元网络和长短时记忆网络两种时序结构作为模型的基础架构,详细设计了其中的多模态输入结构和基于注意力机制的多模态融合结构。实验结果表明,在言语自动评估场景中,对于依赖文本的打分模块,语音和文本联合学习的多模态模型的性能比起纯语音模型有一定的提升;使用门控循环单元网络的模型性能整体高于长短时记忆网络的性能;使用深度学习方法建模的言语评估模型的性能明显高于使用传统机器学习方法的性能。针对多参量的言语评估场景,本文采用多任务学习机制,提出了一种基于多任务的言语自动评估方法,在多模态方法基础上进一步提升性能。在该方法中,多个打分任务之间可以共享网络结构,通过调整不同任务之间的权重对多任务模型进行调优。本文将具有高度关联性的打分模块联合起来进行多任务学习,实验结果表明,多任务学习方法有效地提升了流利度模块、情绪表现模块和节奏感模块的打分性能,对多参量的言语评估场景可以起到很大的辅助作用。