基于两层隐马尔可夫模型的可视语音合成方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:CANDICE301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多媒体技术的发展使人类获取、处理信息的手段发生了质的飞跃,人机交互的方式越来越便捷、有效、人性化。多通道信息融合的研究正是适应人机交互这一要求提出来的,而对人类交流方式中采用语言包括语音和可视语音这一交流方式仿真的研究也成为近年来的一个热点之一。本文通过对语音和唇动这两种模式的信息相关性问题的研究,提出了基于两层隐马尔可夫模型的音视频映射模型,进一步完善了基于隐马尔可夫模型的语音驱动唇动合成系统。该合成系统的提出旨在通过可视唇动信息的引入增强对语音的感知和理解,特别是在有噪音或者听者有听力障碍的情况下,唇动信息能够辅助对语音的理解,从而使人与人以及人与计算机之间的交流更和谐。 本文在实验室原有基于隐马尔可夫模型的语音驱动唇动合成系统研究工作基础上,着重从两个角度进行了改进。第一,针对原系统口形聚类不准确的不足,实现了基于K均值算法的口形自动聚类,从改进口形聚类准确性角度提高了基于视素建立的隐马尔可夫模型的参数的准确性,从而提高了合成时预测口形的准确性。第二,针对原系统合成出的口形与语音对应不准确、合成出的口形序列不连贯的不足,提出了基于两层隐马尔可夫模型的可视语音合成方法。该模型继承了原系统基于口形类建立语音隐马尔可夫模型的成果,又构建了对所有口形建模的可视隐马尔可夫模型,并通过一个两层的层次结构将两者恰当结合。由于该方法通过上层的大的各态历经的隐马尔可夫模型有效统计了口形的分布属性和上下文相关性;通过下层的语音隐马尔可夫模型统计了语音的分布属性和上下文相关性,因此避免了因语音与口形之间多对多映射产生的预测误差,从而提高了语音与口形对应的准确性。特别是口形上下文相关性的统计使合成出的口形序列具有连贯、自然、平滑的优点。此外,整个系统合成过程完全自动化的,无需任何人工干预。
其他文献
嵌入式系统是一种具有特定功能的专用计算机系统。嵌入式系统作为实现设备小型化、智能化和自主知识创新的一个重要元素,目前已广泛运用于国防、工业、交通、能源、信息以及日
随着计算机技术以及多媒体网络通讯技术的兴起和快速发展,数字视频编码技术在人们日常生活中起到的作用也越来越重要。由JVT制定的新一代视频编码标准——H.264/AVC能够提供更
本文分析比较了IPv4和IPv6两种协议的异同点,介绍了IPv6新协议的特点及一些技术规范。并着重研究从IPv4向IPv6过渡的问题。重点分析了目前几种比较成熟的技术:双协议栈技术、隧
RoboCup仿真2D比赛过程需要球队间的整体高效的合作及多个智能体之间默契配合,如阵型策略的调节,才能赢得比赛胜利。但由于通讯的限制,智能体很难在动态实时的比赛环境中得到足
对地球上各种自然现象和景物的虚拟仿真早已经成为计算机仿真领域的热点和难点,海洋占据地球总表面积的70%以上,人类在海洋中从事着各种各样的经济及军事活动,是人类活动的重要
数据挖掘是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是人工智能和数据库发展相结合的产物,是目前国际上数据库和信息决策系统
数据压缩技术已成为当今通信、广播、存储和多媒体娱乐等领域的一项必不可少的关键技术。但在安全、医药等几个特殊领域,由于对图像数据要求苛刻,压缩、解压缩过程不能有丝毫
藏文字处理是计算机完成藏字的输入、处理和输出的全过程,是研究藏文信息的技术基础。目前,国内外虽有几个藏文字处理系统,但还没有一个可以输入所有藏字的系统。本论文旨在研究
本文详细介绍了国际上目前在这三个步骤上提出的多种算法,并针对这三个步骤提出了自己的改进算法。文中一共提出了六种改进算法,包括塌缩步骤中的关键顶点塌缩算法和顶点团
根据单片微机系统的发展趋势及用户对驱动器测控系统的需求,在对系统功能,技术指标、性价比等方面进行了可行性分析之后,提出了一套能够满足用户要求的系统设计方案。本文针对系