论文部分内容阅读
多媒体技术的发展使人类获取、处理信息的手段发生了质的飞跃,人机交互的方式越来越便捷、有效、人性化。多通道信息融合的研究正是适应人机交互这一要求提出来的,而对人类交流方式中采用语言包括语音和可视语音这一交流方式仿真的研究也成为近年来的一个热点之一。本文通过对语音和唇动这两种模式的信息相关性问题的研究,提出了基于两层隐马尔可夫模型的音视频映射模型,进一步完善了基于隐马尔可夫模型的语音驱动唇动合成系统。该合成系统的提出旨在通过可视唇动信息的引入增强对语音的感知和理解,特别是在有噪音或者听者有听力障碍的情况下,唇动信息能够辅助对语音的理解,从而使人与人以及人与计算机之间的交流更和谐。
本文在实验室原有基于隐马尔可夫模型的语音驱动唇动合成系统研究工作基础上,着重从两个角度进行了改进。第一,针对原系统口形聚类不准确的不足,实现了基于K均值算法的口形自动聚类,从改进口形聚类准确性角度提高了基于视素建立的隐马尔可夫模型的参数的准确性,从而提高了合成时预测口形的准确性。第二,针对原系统合成出的口形与语音对应不准确、合成出的口形序列不连贯的不足,提出了基于两层隐马尔可夫模型的可视语音合成方法。该模型继承了原系统基于口形类建立语音隐马尔可夫模型的成果,又构建了对所有口形建模的可视隐马尔可夫模型,并通过一个两层的层次结构将两者恰当结合。由于该方法通过上层的大的各态历经的隐马尔可夫模型有效统计了口形的分布属性和上下文相关性;通过下层的语音隐马尔可夫模型统计了语音的分布属性和上下文相关性,因此避免了因语音与口形之间多对多映射产生的预测误差,从而提高了语音与口形对应的准确性。特别是口形上下文相关性的统计使合成出的口形序列具有连贯、自然、平滑的优点。此外,整个系统合成过程完全自动化的,无需任何人工干预。