面向音频检索的音频特征分析方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:mabimabide
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和手持录像、录音设备的普及,普通用户可以获取的多媒体数据呈现爆炸式增长。为了实现对海量多媒体数据的管理和检索,基于内容的检索技术成为了研究热点。这种检索方法要求用户直接给出反映查询意图的样例,系统从中提取反映内容信息的底层特征后在数据库中搜索相似的样本,因此该方法依赖于具有区分力的特征以及快速的检索算法。本文针对多媒体数据中的音频部分,以基于内容的音频检索为研究目标,以提取底层音频特征为核心研究内容,借鉴人脑对声音的感知方式,探索了基于稀疏表示的多种音频特征,提出了基于倒排索引的音频内容检索算法。本文主要工作及贡献如下:(1)基于人脑对谐波结构的感知特点,提出了一种基于谐波分量的频谱分解方法。设计一个能够在频域表达谐波结构的字典,该字典利用谐波基频、共振峰频率和泛音能量衰减速率等参数描述谐波结构。基于所设计字典,采用匹配追踪算法对信号频谱进行稀疏表示,然后将分解后原子参数的统计特性作为音频特征。16类闭集音效分类实验结果中,提出的谐波分量特征获得64.8%的分类效果,相对MFCC特征和谱特征,分别提升了7.4%和3.9%;与MFCC结合后,分类效果达到66.3%。(2)针对(1)中的谐波特征时间分辨率较差的问题,提出了基于人脑感知的时域分解模型。该模型依据人脑对音频中谐波、瞬时和残差成分的不同感知方式,将信号分解到各自子空间并分别对各分量进行时间-频率联合表示:分别使用具有良好时-频特性的Gabor字典,与人耳频率响应相吻合的Gammatone字典,以及噪声颜色对三个子空间进行描述。16类音效分类实验结果中,所提出的音频特征获得72.3%的分类效果,与MFCC、MFCC+MP和MFCC+MAXMP特征的分类结果相比,分别提升了14.9%,6.2%和4.7%。(3)针对(1)和(2)中使用的传统稀疏表示中系数向量对原子参数表征能力不足的缺点,提出了基于系数张量的音频特征表示方法,该系数张量利用张量的高阶特性,使用不同的阶(模)表示不同的参数,因此联合地描述了信号中各Gabor分量的时间、频率和长度信息,得到信号的联合时间-频率-长度表示。给出了一种非负稀疏张量的分解算法,利用张量内的稀疏度作为惩罚参数以避免过拟合,从张量中分解出时间、频率和长度因子作为音频特征。16类音效闭集分类实验结果中,系数张量特征能够达到82.2%的识别率。在开集确认实验中,该特征达到了20.4%的EER值。(4)针对传统的顺序音频检索方法计算量大的不足,提出了基于倒排索引的音频内容检索方法,包括音频内容分割,半监督音频字典训练以及相似度计算方法。首先探索了一种基于不相邻数据窗的噪音鲁棒快速说话人改变检测算法,并将该算法作为多层结构的音频内容分割算法的一部分。设计了一种半监督的字典训练方法,将分割后的音频片段转换为音频字。参考文本检索,提出了基于音频字的倒排索引结构。检索阶段,综合利用查询片段和候选段落之间内容上以及时序上的匹配进行结果排序。实验结果显示,查询样本时长为20秒时,本文检索方法的检索精确度达到95.68%,比顺序检索方法TAS和MOTS分别提升2.82%和1.37%,比基于词袋模型的算法提升18.77%,同时,所提出的算法用时分别只有上述算法的66.26%,35.50%和75.93%。
其他文献
三维激光扫描技术也被人称为实景复制技术,它作为立体扫描技术,可以全自动来获得数据,并且精度也比较的高,因此十分的先进,但是在地形测量中应用三维激光扫描系统还存在着一些问题
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:探讨创伤性膈疝的治疗疗效。方法:回顾分析18例创伤性膈疝的救治结果,对创伤性膈疝的病因、诊断和治疗进行分析。结果:手术治疗后,17例痊愈出院,1例因重度颅脑外伤死亡。结
通过对中储式制粉系统制粉能耗影响因素进行优化分析,针对制粉系统运行中存在的问题提出了具体的处理措施和建议,阐述了提高制粉系统经济效益的主要途径。
本文采用机械合金化与真空热压烧结相结合的技术制备了Nb-xW(x=10、20、30wt.%)、Nb-28.5W-5Cr、Nb-27W-10Cr和Nb-27W-10Si难熔合金,利用三因素三水平正交实验研究了Nb-W合金机
对于侵权法中的归责原则,解析说法比较多,无论是哪种解析说法,公平原则成为了归责原则之一,一旦行为人的责任和过错失去了公平,就必须通过公平来进行矫正。就是在公平原则上,
目的探讨中药饮片处方审核中存在的问题,提出相对应的解决对策。方法以2 0 1 0年1月~2 0 1 4年1 2月作为对照组,分析该阶段中药饮片处方审核存在的问题,共52个,以2015年1月~2
<正>近日,在中国电子科技集团公司第二研究所(简称中国电科二所),100台碳化硅(SiC)单晶生长设备正在高速运行,SiC单晶就在这100台设备里"奋力"生长。SiC单晶是第三代半导体材
宠物行业高速发展,移动互联网时代全面到来,再加上互联网可以解决传统笼物行业存在的一些弊端,宠物行业逐渐向移动互联网转型,"电商十社区"成为了基础的线上模式。同时,通过整
铝酸钠溶液种分过程是整个氧化铝生产过程最重要的工序之一。提高溶液的分解速率,获得粒度分布均匀、强度高的氢氧化铝产品是氧化铝生产工作者孜孜以求的目标。本文采用活化