基于口型变化的音视频信息处理研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户:JERONG971
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别一直是人机交互技术的重点研究内容,而在实际场景的语音识别总会受到各种干扰信息,比如场外噪声信息、多说话人交叉信息,这些都使得语音识别变得困难,系统性能下降。针对这些不足,在语音识别系统中引入与其不同模态的唇部视觉语音信息,该唇部视觉语音信息不受音频干扰,且唇动信息同样包含了丰富内容,可以帮助对语音信息的理解。在此背景下,本文提出一种端到端的视听语音识别模型,主要研究内容如下:1、视听特征的提取及其模态处理。提出一种具有瓶颈结构的稀疏深度信念网络来分别提取视听语音特征信息。为了规避维度灾难并使传统的深度信念网络对输入数据有更强的鲁棒性,通过在网络的目标函数中以非重叠组套索的方式引入l1/2范数与l1范数来构造一种稀疏深度信念网络,达到对视听特征的稀疏表示。同样,为了后期视听特征的模态级融合做准备,分别使用一层双向长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)对特征作模态处理。2、视听信息的模态级融合。为解决视听不同模态信息融合时在时序上不一致问题,本文提出使用一种注意力机制将音频流BLSTM的输出与每一时刻的视觉流BLSTM的输出进行“匹配”,将匹配分数与视觉流BLSTM的输出进行线性组合,此时得到的结果是与当前音频流BLSTM输出相对应的视觉流文本向量,将两者通过连接层融合,这样一来可以自动对齐、融合不同模态的视听信息,得到更加高级的视听融合序列表示,便于后续分类识别。3、对视听融合信息进行分类识别。使用附加了一层BLSTM的Softmax层来进行多分类,将输入的视听序列映射为输出类别的概率表示,以概率最大的类别作为最终分类预测标签。实验表明,所提出的算法模型可以有效地识别视听觉信息,在同类算法中有很好的识别率与鲁棒性。
其他文献
从供应链的角度来看,库存单位(SKU)用于计划、制造、采购或分销。随着业务的全球化,企业不得不进入多元化的市场,SKU的数量也难以避免地膨胀。从而,造成批量需求减少,管理的复杂度增加,经济规模效益受到损害。为了有效地控制库存单位,一个系统的库存管理和控制方法可以提高公司运营能力的灵活性和满足客户需求的效率。本文研究的安全仪器公司,由于其运营战略的调整,如新旧产品迭代,目标市场变化,以及生产线的转移
学位
近二十年来以PMN-PT单晶为代表的弛豫铁电材料在国际上获得了广泛研究开发与技术应用,跟PZT等传统铁电陶瓷材料比较,弛豫铁电单晶材料具有很高压电常数(d33~1500 p C/N)和机电耦合系数(k~0.9),使得该类新型压电材料在高端压电器件领域极具应用价值。近年来稀土掺杂弛豫铁电单晶材料成为该类新材料研究的新热点,以不同方式掺杂稀土离子Re3+弛豫铁电单晶材料,可望具有更高压电常数且兼具电学
学位
学位
随着中国房地产市场增速放缓,中国电梯行业的新梯市场也开始趋于平稳,进而造成电梯市场的竞争越来越激烈。售后服务的质量被越来越多的研究证明其对提高企业竞争力的重要性,越来越多的研究关注在如何提高售后服务的质量上。精益思想和流程再造理论作为当下两个重要的企业管理理论,自提出以来一直被众多学者研究、应用和完善。本文通过融合精益思想和流程再造理论,以S公司的售后服务流程为研究对象,用案例分析的方式,研究这两
近些年来,随着家园合作的逐步深化,家委会参与幼儿园管理也显得尤为重要,家委会的加入打破了以往幼儿教育方式单一的传统形式,使幼儿教育系统更加完善,也使得幼儿园、家庭、社会得以协调,促成三位一体的教育体系,此外,在一定程度上也改善了幼儿受教育的环境,更有利于他们的健康成长。但家委会的加入也引发了许多问题的出现,比如幼儿园原有管理系统被冲击,家委会章程制定不完善、参与管理的内容浅显、参与幼儿园管理被动、
学位
中国煤炭资源生产端与消费端分离,京津冀地区作为能源主要消费区域之一,“三西”地区作为能源主要生产端之一,二者通过铁路公路等方式将煤炭从“三西”地区7运输到京津冀地区。基于京津冀地区大气污染问题的严峻性和开展的一系列禁煤政策。就此,中国提出“输煤转输电”的能源输送战略,减少“三西”地区向京津冀地区输送煤炭总量,提高“三西”地区向京津冀地区输送电力总量。基于现有数据推测,“三西”地区与京津冀地区之间的
随着听力障碍儿童佩戴助听器或植入人工耳蜗的小龄化,越来越多研究者关注学龄前听力障碍儿童早期语言康复的口语叙事研究,基于目前听力障碍儿童早期语言康复对象小龄化趋势,以及国内研究者对听力障碍儿童无字绘本相关研究较少的现状,本研究旨在通过对3-7岁听力障碍儿童无字绘本故事复述能力的研究,探究重庆主城区不同年龄阶段听力障碍儿童故事复述能力。本研究从聋听对比视角,探究3-7岁听力障碍儿童与普通儿童整体故事复