语音与文本联合学习的言语评估

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shalaoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实生活中,有很多场景需要对说话人的言语表达能力进行评估,比如:普通话考试、口语训练、语言教学评价、播音支持考试等。目前,这些场景大多数仍然采用人工打分的方式进行评估,这种评估方式往往缺乏公平性,并且耗时秏力,成本太高,整体效率低下。语言学习者也需要一种可以随时给予学习反馈的言语自动评估工具。目前的言语自动评估系统往往只参考语音层面的信息,没有涉及语义、语法等文本相关的内容,不能反映出说话人口语表达的全部信息。很多场景下,打分人员也往往只是给说话人反馈一个整体的分数,并没有进行多维度的评估。针对通用言语评估场景下的复杂数据,本文设计了一套规范有效的数据预处理流程。该流程包括三个部分:利用音频活动检测技术,对音频数据进行降噪处理,提升音频的质量;利用语音识别技术,对语音数据进行转录处理生成文本数据,为后续多模态言语评估方法的实现做了良好的铺垫;利用数据重采样技术,平衡了数据标签的分布。通过控制变量的方法设计对比实验,验证数据预处理流程的有效性。实验结果表明,本文设计的音频活动检测、语音识别、数据重采样三个数据预处理流程对言语自动评估模型的性能均有明显的提升。本文采用语音和文本联合学习的方式,提出了一种基于多模态的言语自动评估方法。这种方法以门控循环单元网络和长短时记忆网络两种时序结构作为模型的基础架构,详细设计了其中的多模态输入结构和基于注意力机制的多模态融合结构。实验结果表明,在言语自动评估场景中,对于依赖文本的打分模块,语音和文本联合学习的多模态模型的性能比起纯语音模型有一定的提升;使用门控循环单元网络的模型性能整体高于长短时记忆网络的性能;使用深度学习方法建模的言语评估模型的性能明显高于使用传统机器学习方法的性能。针对多参量的言语评估场景,本文采用多任务学习机制,提出了一种基于多任务的言语自动评估方法,在多模态方法基础上进一步提升性能。在该方法中,多个打分任务之间可以共享网络结构,通过调整不同任务之间的权重对多任务模型进行调优。本文将具有高度关联性的打分模块联合起来进行多任务学习,实验结果表明,多任务学习方法有效地提升了流利度模块、情绪表现模块和节奏感模块的打分性能,对多参量的言语评估场景可以起到很大的辅助作用。
其他文献
近年来,因为个性化推荐系统能够缓解信息过载的问题而得到了大家的重点关注,目前在互联网各个领域几乎都可以看到推荐系统的应用,它可以使得用户在众多的数据里面迅速发现对
多传感器信息融合是当前科学研究的一个重要课题,其中目标跟踪融合结构及算法的研究更是当前研究的热点问题。本文利用舆论动力学的思想,对目标位置的融合结构以及融合算法两
PPP模式是公共服务供给机制发展过程中的重大创新,体现了多种法律制度的综合与融合。在这种利益共享、风险共担的新型公私合作形式中,政府从公共物品和服务的垄断者变为提供
分期付款买卖合同是我国《合同法》的重要组成部分。在司法实践中,分期付款的股权转让合同纠纷案件不断增多,当事人多依据《合同法》第167条之规定,请求受让人支付全部价款或
急性大强度运动诱导机体生氧化应激会对机体造成极大伤害,虾青素是一种极强的抗氧化剂。为了探究虾青素对急性大强度运动诱导的氧化应激的影响及影响途径,本研究通过以急性急
汉字的正确与工整评价,对于辅助汉字自动化教学具有重要意义。在汉字自动化教学中,对汉字智能评分,发现书写问题并提出改进意见等既能给学生提供实时的评价反馈,也能减轻教师
教育作为民生领域不可或缺的组成部分,一直以来都是社会各界持续关注的话题。政府及教育职能部门作为教育工作的决策者和践行者,在各个方面都对教育发展有着至关重要的影响。
相干衍射成像是一种通过测量衍射场的强度分布来获得物体的二维或三维物体形貌的成像技术。作为一种有效的无透镜成像方式,相干衍射成像可以实现不受透镜装置限制的分辨率,因
人体姿态估计由于不同外观、性别、衣物、遮挡、背景和光照条件的不确定性和复杂性,往往会给姿态估计预测带来一定困难。如何有效处理不同条件影响,并在此基础上设计出有效的
农村土地物权权能制度是实现土地权利的重要法律规范。结合当前的社会实践发展态势,社会个体追求平等的发展机会和享有平等的发展权利是政策改革和制度设计所应当考虑的重要