长时语音特征在说话人识别技术上的应用

来源 :声学学报 | 被引量 : 0次 | 上传用户：fzyfmm

【摘要】

：

本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单

【作者】

：

张建平李明索宏彬杨琳付强颜永红

【机构】

：

中国科学院声学研究所中科信利语音实验室,

【出处】

：

声学学报

【发表日期】

：

2010年02期

【关键词】

：

语音特征说话人识别技术 speaker recognition features span 时频特征 voice activity detection sp

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文除介绍常用的说话人识别技术外,主要论述了一种基于长时时频特征的说话人识别方法,对输入的语音首先进行VAD处理,得到干净的语音后,对其提取基本时频特征。在每一语音单元内把基频、共振峰、谐波等时频特征的轨迹用Legendre多项式拟合的方法提取出主要的拟合参数,再利用HLDA的技术进行特征降维,用高斯混合模型的均值超向量表示每句话音时频特征的统计信息。在NIST06说话人1side-1side说话人测试集中,取得了18.7%的等错率,与传统的基于MFCC特征的说话人系统进行融合,等错率从4.9%下降到了4.6%,获得了6%的相对等错率下降。 In addition to introducing the commonly used speaker recognition technology, this paper mainly discusses a speaker recognition method based on long-time and time-frequency features. The input speech is firstly VAD processed and the clean speech is obtained, then the basic time-frequency features are extracted. In each speech unit, the main fitting parameters are extracted from the trajectories of time-frequency features such as fundamental frequency, formant and harmonics by Legendre polynomial fitting, and then the dimensionality reduction using the HLDA technique is performed. Gaussian mixture model The mean supervector represents the statistical information of each speech time-frequency feature. In the NIST06 speaker 1side-1side speaker test suite, an 18.7% equal error rate was achieved, converging with the traditional MFCC-based speaker system, with the error rate dropping from 4.9% to 4.6% with a 6% The relative error rate decreased.

其他文献

新旧会计准则中债务重组的差异分析

随着经济全球化的不断深入,国际间的贸易融合不断加剧,各国为了发展本国经济,不断调整本国的会计标准。债务重组在我国经济改革与发展中具有重要作用,它可以减轻企业的债务,

期刊

会计准则债务重组差异

“互联网+”视角下边疆民族地区县级市政府治理能力提升路径研究 ——以广西靖西市为例

我国经济和社会等各领域已全面进入“互联网+”的时代,互联网时代将给我国带来全方位的、势不可挡的大变革.广西靖西市政府牢牢抓住“撤县设市”这一全新契机,又借助“互联网

期刊

互联网+县级市政府治理能力提升路径

柴塘管线初步设计参数选取方法的研究

【摘要】本文介绍了柴塘管线的工程概况以及输油站和管线的基本概况，并根据工程实际情况，详细介紹了在初步设计中的设计依据和计算参数的确定。　　【关键词】管线初步设计设计依据计算参数　　 1 工程概况　　 1.1 线路基本情况简介　　本设计管线全长437千米，海拔最低处为2779米，最高处为3427米，，全线采用密闭输送的方式输送，能够长期连续稳定运行，且受外界恶劣气候的影响小，无噪音，尤其是

期刊

管线初步设计设计依据计算参数

The experiment study of spatial mask effect

为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7

期刊

浅谈建筑工程施工过程成本控制

期刊

走进黑龙江省方志馆(连载五)

在黑龙江省方志馆的第二展厅,以“黑土文化的丰碑——黑龙江地方志工作纪实”为主题.通过领导关怀、队伍建设、学习交流、指导工作、修志编鉴、史志信息化、市地修志等栏目,

期刊

黑龙江省方志馆方志工作学习交流系列图片文字资料黑土文化工作纪实队伍建设信息化地方志主题展厅系统史志领导栏目成绩

揭示人性的不同方式

阅读《世界科幻博览》，总给人一种视野开阔的感觉，尤其是作为每期主打的“雨果奖”和“星云奖”历年获奖作品。面对它们，你会发现你苦思冥想了许多年的科幻构思，原来早就被那些前辈作家们轻松地思考和创作过了。只不过这些作品都带有一定的时代烙印，掺杂着明显的神话和童话色彩，比如古堡和幽灵什么的，而波尔·安德森又对这些格外垂青。　　《悲剧之歌》深刻地反映出在电脑管理社会的时代，个性化人类的极端痛楚，对于系统与个

期刊

获奖作品阅读雨果视野科幻

美国地质调查局震级发布规则

(2002年1月18日实施)美国地质调查局(USGS)负有向政府其他机构和公众提供地震信息的责任。有关地震的信息以多种方式,包括以对有感地震响应的方式为联邦政府、州政府和地方政府以及民间团体提供服务。公众能够快速得到他们能够理解的、准确的地震大小信息,有助于他们采取适当的反应。由于地震与公众安全密切相关,所以美国地质调查局制订了关于快速发布准确的、一致的、公众能够理解的关于地震大小的管理规定,所有

期刊

不同恢复年限对高寒露天煤矿区渣山植被和土壤特性的影响

为探究吕家坨井田地质构造格局,根据钻孔勘探资料,采用分形理论和趋势面分析方法,研究了井田7

期刊

天然气运输中的管道设计相关问题探究

【摘要】天然气在城市生活中扮演着重要角色，其管道设计是建筑工程设计的重要组成部分。本文根据作者多年的相关工作经验，首先对城市燃气管道设计常见问题进行了较为系统的分析，然后提出了城市燃气管道优化设计策略，以资天然气管道设计的相关问题研究。　　【关键词】天然气运输管道设计常见问题优化设计　　城市燃气管道为城市输送着城市生活所必需的天然气，可以说其的存在关系着城市的生存和发展，但是燃气管道的存在面

期刊

天然气运输管道设计常见问题优化设计

长时语音特征在说话人识别技术上的应用

其他学术论文