感知压缩中音频稀疏表示的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:Q529801428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们对音频、图像、视频等媒体的音质画质要求越来越高,传统的先采样后压缩的编码模式逐渐显现出其弊端:一方面,为了得到高音质高画质的媒体,传统编码模式需要采样器使用更高的采样率采集更多的样本点,而采样器硬件无法负担过高的采样率;另一方面,由于传输和储存的要求,编码器需要对采样得到的数据进行压缩,丢弃大部分冗余数据,造成了资源浪费。这种传统的编码模式极大地限制了多媒体技术的发展。近几年来,压缩感知理论迅速兴起。感知压缩是一种新型的采样理论,其主要目的是在采样的同时对信号进行压缩。相比于传统的先采样后压缩的编码模式,感知压缩仅需比原信号数据量更少的观测信号,就能以高概率恢复原信号,从而突破了奈奎斯特采样定律的束缚,使得采样器能够以亚奈奎斯特频率采样,节约了存储、传输等资源。虽然感知压缩技术从理论上能够达到较高的压缩率和重构准确度,并且对于其在图像和视频的应用已有大量的研究,但是实际上,感知压缩的性能并不理想,并且对于其在音频上的研究与应用少之又少。为了解决上述问题,本文对于感知压缩中信号稀疏表示进行研究,并提出了一种新型的学习字典构造算法——K平均聚类经验模态分解(K-means clustering empirical mode decomposition,K-EMD)字典构造方法。本文提出的K-EMD算法利用经验模态分解方法提取音频中的固有模态函数(Intrinsic Mode Function,IMF)及趋势信号(Trend),并对提取的成分进行K平均聚类,得到学习字典;同时,为了改善感知压缩中对于音频的稀疏表示性能,本文提出一种新的音频感知压缩编解码模式,突破了传统音频编解码中联合语音乐音编解码需要语音、乐音两套编解码方法的传统方式,首先使用Lasso算法将音频分为稳态成分、瞬态成分以及残差成分,再根据三部分成分的特点分别使用不同的感知压缩方法处理。对于稳态成分,由于其谐波特性较好,频谱较为稀疏,本文采取频谱感知压缩方法对稳态部分采样及重构;对于瞬态成分,由于其时域上的波形较为相似,具有一定的模式,本文采取基于K-EMD字典的感知压缩方法对瞬态部分采样及重构;对于残差成分,其中依旧包含原始音频的部分信息,若是舍弃此部分会对重构音频的音质产生影响,但是残差部分还包含部分噪声,没有特定的规律,所以本文采取基于贪婪自适应字典(Greedy AdaptiveDictionary, GAD)的感知压缩对残差部分采样及重构。为了验证本文提出的K-EMD学习字典构造方法的稀疏表示性能,并验证本文提出的对于音频的感知压缩系统的性能,本文分别对基于K-EMD的展开系数的稀疏度、基于K-EMD字典的重构准确度以及音频感知压缩系统的稀疏表示的稀疏度,系统重构准确度进行了大量实验,证明在稀疏性与重构准确性上相较广泛使用的K-SVD算法有一定程度上的提高,在稀疏性方面提高了57.46%,重构准确性提高了57.00%;同时本文提出的音频感知压缩编解码比使用单一稀疏表示方法的感知压缩编解码在稀疏表示展开系数的稀疏度方面提高了62.85%,在重构准确度方面提高了56.30%。
其他文献
期刊
随机信号处理的重要课题之一是某种意义下的信号最优估计,即从受到噪声污染的观测信号中提取有用信息。本文主要针对多通道带乘性噪声系统的观测噪声最优估计算法和状态最优融
下一代网络QoS管理与控制面临很多问题和挑战。本文在调研了多个国际组织有关QoS体系结构的研究成果和分布式系统模型构建方法的基础之上,从业务质量需求的角度出发提出了适应
  本论文围绕保偏光子晶体光纤进行了深入的理论研究,并进行光子晶体光纤拉制实验,提出了一种新结构的高双折射光子晶体光纤——类矩形芯光子晶体光纤,并首次理论分析了温度对
目标信息具有时效性。低信噪比弱小目标的检测和跟踪越来越重要,是本文的研究内容。在详细分析了目标、背景杂波以及噪声特点的基础上,研究了远距离弱小目标的成像模型,分析了弱
分布式卫星SAR是一种基于编队飞行卫星,采用双/多基地体制的SAR系统,可用于实现一些常规单星SAR系统不能或不易完成的任务,如干涉测量、运动目标检测、多极化成像、宽测绘带成像