基于两层隐马尔可夫模型的可视语音合成方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：CANDICE301

【摘要】

：

多媒体技术的发展使人类获取、处理信息的手段发生了质的飞跃，人机交互的方式越来越便捷、有效、人性化。多通道信息融合的研究正是适应人机交互这一要求提出来的，而对人类交流

【作者】

：

李敬华

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2005年期

【关键词】

：

可视语音合成多媒体技术隐马尔可夫模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多媒体技术的发展使人类获取、处理信息的手段发生了质的飞跃，人机交互的方式越来越便捷、有效、人性化。多通道信息融合的研究正是适应人机交互这一要求提出来的，而对人类交流方式中采用语言包括语音和可视语音这一交流方式仿真的研究也成为近年来的一个热点之一。本文通过对语音和唇动这两种模式的信息相关性问题的研究，提出了基于两层隐马尔可夫模型的音视频映射模型，进一步完善了基于隐马尔可夫模型的语音驱动唇动合成系统。该合成系统的提出旨在通过可视唇动信息的引入增强对语音的感知和理解，特别是在有噪音或者听者有听力障碍的情况下，唇动信息能够辅助对语音的理解，从而使人与人以及人与计算机之间的交流更和谐。本文在实验室原有基于隐马尔可夫模型的语音驱动唇动合成系统研究工作基础上，着重从两个角度进行了改进。第一，针对原系统口形聚类不准确的不足，实现了基于K均值算法的口形自动聚类，从改进口形聚类准确性角度提高了基于视素建立的隐马尔可夫模型的参数的准确性，从而提高了合成时预测口形的准确性。第二，针对原系统合成出的口形与语音对应不准确、合成出的口形序列不连贯的不足，提出了基于两层隐马尔可夫模型的可视语音合成方法。该模型继承了原系统基于口形类建立语音隐马尔可夫模型的成果，又构建了对所有口形建模的可视隐马尔可夫模型，并通过一个两层的层次结构将两者恰当结合。由于该方法通过上层的大的各态历经的隐马尔可夫模型有效统计了口形的分布属性和上下文相关性；通过下层的语音隐马尔可夫模型统计了语音的分布属性和上下文相关性，因此避免了因语音与口形之间多对多映射产生的预测误差，从而提高了语音与口形对应的准确性。特别是口形上下文相关性的统计使合成出的口形序列具有连贯、自然、平滑的优点。此外，整个系统合成过程完全自动化的，无需任何人工干预。

其他文献

基于Internet的嵌入式通信系统的研究

嵌入式系统是一种具有特定功能的专用计算机系统。嵌入式系统作为实现设备小型化、智能化和自主知识创新的一个重要元素，目前已广泛运用于国防、工业、交通、能源、信息以及日

学位

嵌入式系统ARM微处理器因特网接入技术远程数据通信

H.264标准中帧内编码技术研究

随着计算机技术以及多媒体网络通讯技术的兴起和快速发展，数字视频编码技术在人们日常生活中起到的作用也越来越重要。由JVT制定的新一代视频编码标准——H.264/AVC能够提供更

学位

帧内编码多媒体网络数字视频编码

IPv4和IPv6转换网关的研究及IPv6在校园网中的实现

本文分析比较了IPv4和IPv6两种协议的异同点，介绍了IPv6新协议的特点及一些技术规范。并着重研究从IPv4向IPv6过渡的问题。重点分析了目前几种比较成熟的技术：双协议栈技术、隧

学位

IPv4IPv6NAPT-PT转换网关

基于神经网络的阵型策略在线学习研究及应用

RoboCup仿真2D比赛过程需要球队间的整体高效的合作及多个智能体之间默契配合，如阵型策略的调节，才能赢得比赛胜利。但由于通讯的限制，智能体很难在动态实时的比赛环境中得到足

学位

RoboCup仿真2D神经网络在线学习阵型策略在线教练

航海视景仿真中若干关键技术的研究及实现

对地球上各种自然现象和景物的虚拟仿真早已经成为计算机仿真领域的热点和难点，海洋占据地球总表面积的70%以上，人类在海洋中从事着各种各样的经济及军事活动，是人类活动的重要

学位

渲染到纹理光照模型粒子系统投影网格

基于CORBA的分布式关联规则挖掘系统的研究和实现

数据挖掘是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物,是目前国际上数据库和信息决策系统

学位

数据挖掘分布式数据库关联规则FDM算法CORBA规范

无损图像压缩技术的研究与应用

数据压缩技术已成为当今通信、广播、存储和多媒体娱乐等领域的一项必不可少的关键技术。但在安全、医药等几个特殊领域,由于对图像数据要求苛刻,压缩、解压缩过程不能有丝毫

学位

数字图像处理图像编码数据压缩无损压缩有损压缩

藏文字处理系统的研究与实现

藏文字处理是计算机完成藏字的输入、处理和输出的全过程，是研究藏文信息的技术基础。目前，国内外虽有几个藏文字处理系统，但还没有一个可以输入所有藏字的系统。本论文旨在研究

学位

藏文字处理系统工程心理学键位布局OpenType藏文字库藏文输入系统

一种面向网络并行模拟的多级图划分算法

本文详细介绍了国际上目前在这三个步骤上提出的多种算法，并针对这三个步骤提出了自己的改进算法。文中一共提出了六种改进算法，包括塌缩步骤中的关键顶点塌缩算法和顶点团

学位

图划分多级划分图塌缩初始划分分割线优化

驱动发生器测控系统的研究与开发

根据单片微机系统的发展趋势及用户对驱动器测控系统的需求，在对系统功能，技术指标、性价比等方面进行了可行性分析之后，提出了一套能够满足用户要求的系统设计方案。本文针对系

学位

C8051F020单片机驱动器测控系统SMBus通讯抗干扰

基于两层隐马尔可夫模型的可视语音合成方法研究

与本文相关的学术论文