论文部分内容阅读
耳语音转换为正常音,在可应用于公众场合下的通讯、失音者的语音恢复和公安司法工作的某些特殊需要等方面。它是一个全新的课题,有许多问题亟待解决。
本文介绍了耳语音的生理、声学和感知特点,指出耳语发音与正常发音生理的差异导致了它们声学特性的差异,其中最主要的就是耳语音是噪声激励源和耳语音共振峰偏移。要将耳语音转换为正常音,就应修正这些差异。
本文设计了一个基于混合激励线性预测(MELP)模型的耳语音转换系统,它具有传输码率低、抗干扰强、音质效果好、易于参数修改的优点。对于汉语耳语音转换为正常音,主要是通过修改其激励参量和声道传输函数参量来实现。根据汉语声韵调的语言特性,本文主要做了以下几方面的工作:
耳语发音声门上区收缩和声门半开使得耳语音的共振峰发生偏移。本文提出了改进的动态规划共振峰轨迹自动跟踪算法,通过对汉语耳语音和正常音的共振峰进行统计分析,得出了偏移比例,以及耳语音共振峰与汉语声调的关系。此项研究填补了汉语耳语音声学特性研究方面的空白。另外,提出了基于线谱对进行共振峰估计及修改的方法,根据统计出的偏移比例,实现共振峰频率的快速修改。
由于对于汉语耳语音只需在韵母段添加基频,所以汉语耳语音必须进行声韵分割。本文提出了基于信息熵的耳语音端点检测方法,以及相对熵、音长和谱重心相结合的汉语耳语音声韵分割法。该算法鲁棒性强,准确率高于频域法、聚类法、谱平坦度法和听觉模型声韵分割法,可用于耳语音的识别与转换的预处理。
汉语的基频值与声调密切相关,需根据声调模型添加基频,因此必须进行汉语耳语音的声调识别。本文讨论了表征耳语音声调的各特征参数,提出了响度加权的32个Mel频段的对数幅值包络加音长的特征量,基于此参数对汉语孤立耳语音进行声调识别实验,其声调识别率已达到了人耳的平均辨听率,它为连续耳语音的声调识别研究打下了基础。
此外,本文为解决转换音的低频衰减、声级低、语速慢的问题,还提出后处理方法,仞步完成了基于MELP模型的汉语耳语音到正常音的转换系统。本系统恢复出的正常音,音质虽不及正常发音产生的语音自然,但是人们能正确听辨,并能听辨出发音者的一些发音特征。因此,它具有携带发音人的发音特性、音质较好、便于应用的优点。
论文的最后,简要地介绍了论文作者攻读博士期间的相关工作——混响声场中的语音识别。提出了抗混响的滤波规整的MFCC特征参数,它可以提高室内声控拨号系统的识别率。