论文部分内容阅读
随着网络和计算机技术的发展,网络上语音信息的数据量急剧增加,与此同时,对于这些语音信息的管理和应用就提出了新的要求,因此语音文档主题分类技术在信息检索、信息过滤以及信息管理等应用领域越来越受到关注。本文提出了基于混淆网络的语音文档主题分类方法,旨在提高主题分类系统的分类性能,与传统的基于One-best和N-best的分类系统相比,基于混淆网络的分类系统优势在于混淆网络的多候选特性,以及抽取、筛选词汇等后处理对混淆网络的纠错功能,此外分类系统将词的后验概率结合到分类中,改进了权值计算方法,一定程度上提高了系统的分类性能。基于混淆网络的主题分类系统包括三个子系统:语音识别系统、语音识别后处理系统和分类系统。在语音识别阶段,利用HMM模型和HTK工具包对语音信号进行处理,得到相应的文本表示。语音信号的文本表示形式分三种,One-best、N-best和Lattice形式。本文介绍并对比了三种表示形式的优缺点,由于Lattice具有多候选的优点,在后处理部分利用聚类算法将Lattice结果强制对齐生成混淆网络,并从混淆网络中提取出能够代表该语音文档的词汇信息。最后分类系统将混淆网络与潜在语义分析技术结合,对提取到的词汇信息进行建模,得到特征项-文档矩阵形成向量空间模型,和传统的潜在语义分析相比,本系统改进了权值计算方法,将词的后验概率与特征项-文档矩阵相结合,再分别利用SVD和NMF方法对该模型进行降维处理,得到维度较低的语义向量空间后进行分类模型的训练,最终用训练好的模型对语音测试文档进行分类。本课题对属于6个类别的8703篇语音文档进行分类,并比较和分析实验结果,说明基于混淆网络的语音文档主题分类系统能够实现对语音文档的准确分类,并且其分类效果优于基于One-best和N-best的分类系统。