智能音视多媒体信息生成研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gg106419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过端到端的深度卷积神经网络结构来学习特征表示,然后使用控制变量实现对生成信息的特定属性控制则是信息生成研究的一个重点方向。虽然将控制变量与输入信息或特征图级联能够实现对生成信息的特定属性控制,但控制变量与输入信息或特征图之间存在的信息量差异过大和维度不匹配将对属性控制带来一定的困难。因此本文对控制变量的引入方式进行了具体的分析和研究,并做了如下工作:(1)本文提出了一种控制信息引入方式,通过引入控制变量实现对生成信息的属性控制。本文的控制信息引入方式首先使用6层全连接层网络对控制变量进行非线性变换,使控制变量的通道数与网络提取到的特征通道数一致,解决了维度不匹配的问题。同时,通过自适应实例归一化将通道数相同的特征和控制变量的均值和方差在通道上进行对齐,实现了控制变量与特征的有效结合。(2)本文提出了一种表情可控图像生成算法,该算法基于本文提出的控制信息引入方式,通过面部肌肉运动单元向量对动漫风格人脸图像的表情属性进行控制。针对动漫风格人脸图像数据集中缺乏同一人脸的不同表情图像,在使用面部肌肉运动单元向量控制表情属性时为了避免人脸身份信息和其他细节信息丢失,在损失函数中引入了重建损失。最后通过实验表明本文控制信息引入方式通过面部肌肉运动单元向量对表情属性控制的有效性。(3)本文提出了一种基于主动学习的音乐生成算法,该算法使用本文提出的控制信息引入方式,通过乐器类别向量控制生成音乐的音色属性。针对从时序数据中提取乐谱特征和音色特征困难的问题,本文通过短时傅里叶变换得到音频文件对应的幅度谱,将时序数据变换为图像形式,然后通过乐器类别向量控制生成幅度谱的音色属性,最后通过短时傅里叶逆变换将音色变换后的幅度谱转换为音频文件,实现了对音乐生成过程中音色属性的控制。此外,为了解决乐谱相同而演奏乐器不同的音频文件缺失导致无法对音色转换后的音乐质量进行评价的问题,本文通过Classical Piano MIDI数据库和大规模音符数据库Nsynth建立了一个乐谱相同而演奏乐器不同的音频数据集。最后通过实验证明本文控制信息引入方式通过乐器类别向量对音色属性控制的有效性。
其他文献
本文以认知诊断在自动问答系统中的应用为研究对象,通过问与答的方式完成认知诊断,推荐给用户需要加强训练的题目和薄弱的知识点,从而达到弥补用户有漏洞的知识结构的目的。用户还能使用自动问答系统询问有认知缺陷的薄弱知识点,强化对知识点的理解和认知诊断的效果。另一方面,可视化展示薄弱知识点的关系,可以帮助用户掌握知识点矩阵,辅助认知诊断在问答系统中的应用,而知识图谱可以完成这一任务。故本文以领域知识图谱为载
面临全球温室效应的问题,我国采取积极应对的态度,提出力争在2030年前我国二氧化碳排放达到峰值,力争在2060年前实现碳中和。但大量高能耗,重污染,高碳排的企业在经济环境的推动下,不断地挑战着大自然的容忍极限,对环境可持续发展造成了重大威胁。随着2017年全国发电行业碳排放权交易市场的建立,对我国发电行业节能减排有了更高的要求,其中对火电企业的排放标准更是严格要求,火电企业不得不增加环保投入进而控
伴随着深度学习方法的飞速发展,人脸表情识别方法同样获得了快速发展,但是其仍旧面临着不少难题。对于不同的人类个体来说,即便是表达相同类别的表情,也会存在一定的差异,并且在实际生活中,人们在表达表情的同时还会伴随着言语,这些言语会造成口型的变化从而带来视觉差异,这种情况造成的表情类内差异性问题会严重影响到识别的准确率。同时,表情是一个动态变化的过程,以往使用二维卷积神经网络对单帧图像进行特征提取,忽略
随着计算机技术的迅猛发展,与计算机安全相关的攻防技术也在不断演变进化。本文关注的是众多攻击技术中的ROP攻击(Return–oriented Programming),攻击者控制源程序的返回地址来间接操控程序的走向,从而执行特定的攻击(一般是获取控制权限)。目前,ROP攻击通常利用的是系统内静态库和动态库中的短指令工具链(gadget),通过拼接这些gadgets,完成特定目标的攻击。而针对它的检
近几年来高送转现象是我国资本市场上的一大焦点,我国上市公司接二连三的推出高送转的股利政策,不仅中小投资者热衷于购买高送转股票,甚至还出现了高送转概念股。而在实施高送转的公司当中发现创业板公司占据了绝大多数,由于创业板公司股本规模普遍小于主板公司,又由于属于高新技术企业,具有高成长性的特点,可以利用高送转在快速扩大公司股本规模的同时,向外界传递利好信号。其实高送转的本质是把未分配利润和资本公积转增股
随着计算机技术的飞速发展,语音合成(Text-to-Speech,TTS)已经成为人机交互中不可或缺的一部分,并且在人机交互中扮演着重要角色。而目前针对于中文情感语音合成的研究还在萌芽阶段,大部分的研究还是中文语音合成,缺乏情感的加入。本文将研究基于循环神经网络的中文的情感语音合成。研究内容主要有如下工作:1.提出了一个基于循环神经网络的端到端的中文语音合成方法。该方法解决了在资源受限的条件下,经
近年来,我国A股市场规模日趋增大,日渐完善的监督审核机制使得上市公司外延式并购越来越频繁。并购伴随着较多不确定性风险,经常发生整合效果欠佳甚至并购失败。适时引入业绩承诺,可以规避并购交易中的高估值风险,保护相关各方利益。但越来越多的被并购方为了实现高溢价并购而做出了高额业绩承诺,忽视了公司本身有限的盈利能力,由此也产生了业绩“变脸”这一现象。经历了2013年的并购浪潮,业绩“变脸”问题也愈发突出。
区块链技术自诞生以来就由于它本身可追踪、不可篡改等特性成为了学界、产业界研究的热点。随着区块链2.0时代的到来,智能合约赋予了区块链解决更多实际应用问题的可能。然而,由于区块链技术账本公开透明的设计使用户的隐私安全受到了冲击,更为严重的是由于区块链去中心化的特性,使其不能有中心化应用一样的针对隐私泄露的弥补措施。为了满足区块链应用对用户隐私信息的保护需求,近年来已有相关研究人员对区块链隐私保护问题
现今,随着雷达技术的发展和研究的日益进步,雷达对目标的探测能力日渐成为工业领域、军事应用、汽车应用等各个领域不可或缺的技术。雷达测距是雷达的基本性能之一,其通过接收照射目标反射回来的回波能量完成测距的任务。调频法测距技术可以运用于连续波雷达中,调频连续波(FMCW:Frequency Modulated Continuous Wave)雷达通过向物体发射周期性的高频线性频率斜坡来测量距离,具有调制
学位