论文部分内容阅读
作为人们最方便、最自然的信息传递方式,语音在人类社会中无处不在。尤其是在信息和多媒体技术迅猛发展的今天,语音通信网络和计算机互联网上的语音数据正以前所未有的速度增长。对这些语音数据进行分析和处理,并获取人们感兴趣的有用信息,具有重要的理论意义和实用价值。作为语音信息检索的核心技术,语音关键词检测(SpokenTermDetection,STD)以搜索并定位语音文档中的特定词为目的,在语音分析、信息检索、数据挖掘、信息安全等领域有着广泛的应用。近年来,语音关键词检测已经成为语音处理领域的研究热点,吸引了大量学者展开广泛而深入的研究。虽然取得了一定的进展,但目前的检测结果中仍不可避免地存在着大量错误,这降低了关键词检测系统的性能。从描述检测结果的可信程度来看,错误的原因在于系统对真实的关键词结果赋予了较低的置信测度(ConfidenceMeasure),而对虚假的关键词结果赋予了较高的置信测度。因此,有效的置信测度方法对语音关键词检测至关重要。然而,目前的方法不仅训练准则与评价准则不一致,而且缺乏对高级语言学信息的有效利用;此外,面向词表外词的检测仍存在召回率低的问题,尚无刻画词表外词置信测度的有效方法。本文针对以上问题,从词表内词与词表外词两个方面展开研究,其主要研究内容及创新工作如下:(1)针对目前置信测度训练准则与评价准则不一致的问题,提出了基于接受者操作特性(ReceiverOperatingCharacteristics,ROC)曲线下面积(AreaUnderROCCurve,AUC)最大化准则的置信测度。该方法利用输入语音的声学特征,以最大化AUC作为优化目标,实现了一种子词加权置信测度。同时,根据汉语特点,提出了音节置信测度向量的表示方法,进而实现了基于AUC最大化的音节加权置信测度。与现有基于最小分类错误准则的方法相比,所提出的方法使训练准则与评价准则相一致,同时更有利于参数的训练,从而获得更好的检测性能。(2)针对现有方法缺乏对高级语言学信息有效利用的问题,提出了一种基于上下文背景一致度的置信测度。它利用关键词候选间的关系,将背景词的不确定性与语音文档主题的影响考虑到上下文背景一致度的计算当中,并将上下文背景一致度作为置信测度。为此,利用词出现概率估计背景词的不确定性,通过合并Lattice中交叠候选来计算词出现概率。为了考虑主题的影响,提出了基于主题的上下文背景一致度自适应方法。该方法通过直接对主题分类并使用特定主题的语义相似度的思想实现自适应。由于加入了背景词不确定性和主题信息等先验知识,使上下文背景一致度的计算变得更为准确。实验表明,考虑背景词的不确定性和基于主题的自适应能使检测性能有明显提高。(3)针对词表外词检测召回率低的问题,提出了一种基于关键词扩展的词表外词检测方法及相关置信测度计算方法。该方法将与原始关键词发音相似或易混的音节序列也作为关键词进行搜索。在根据所扩展的关键词定位可能的候选之后,利用候选的后验概率以及所扩展的关键词与原始关键词之间的不匹配程度来计算其置信测度。扩展的关键词与原始关键词间的混淆度由声学模型间K-L散度来度量。为了对K-L散度值进行准确估计,提出了基于上下界的K-L散度估计方法。这一策略能够有效处理汉语模糊匹配中的音节插入、删除等情况,解决了不同长度音节串间不匹配度量的问题。同时,为了加快搜索关键词的速度,提出了一种基于n元文法的树状索引。实验表明,所提出的基于关键词扩展的词表外词检测方法能够有效提高召回率,所提出的置信测度也能够提高词表外词检测性能。(4)针对词表外词检测缺乏有效置信测度的问题,提出了基于候选片段间相关度的词表外词置信测度。通过使用状态对齐的方法对候选片段的边界进行准确定位,并利用基于帧似然比的方法计算初始的置信测度。在此基础上,提出了两种基于相关性的置信测度重估方法,即基于反馈机制的置信测度和基于随机游走模型的置信测度。前者根据伪相关集合和伪无关集合对每一个候选的置信测度进行重新计算。后者利用任意两个候选间的相关度和随机游走模型完成置信测度重新计算。实验表明,所提出的词表外词置信测度能够有效提升词表外词的检测性能。