【摘 要】
:
随着人工智能技术的崛起,利用深度学习开展计算机视觉领域的研究已经取得了令人瞩目的发展和进步。生成对抗网络的提出为文本生成图像任务的研究提供了新的思路。该任务要求
论文部分内容阅读
随着人工智能技术的崛起,利用深度学习开展计算机视觉领域的研究已经取得了令人瞩目的发展和进步。生成对抗网络的提出为文本生成图像任务的研究提供了新的思路。该任务要求输入一段文本描述,并输出符合文本语义信息的逼真图像。尽管这项工作已经取得了不错的成果,但是大多数现有方法都将关注的重点放在文本描述上,却忽略了一些重要的细粒度图像信息。这样的做法既会阻碍更高质量图像的生成,又会影响生成图像的多样性。因此,本文为进一步提高生成图像的质量展开了以下工作:首先,关注生成模型的改进方案。提出了一种全新的图像注意力机制,并将其应用在注意力生成对抗网络中,使生成网络能够自发地选择图像中的重要子区域,并为其绘制更加精细的细节。同时,在评估细粒度文本与图像的匹配情况时,使深度注意力多模态相似模型更加关注图像中重要子区域的匹配情况,从而为生成网络的优化提供支持。经过验证,该方法既能够在一定程度上提升图像的品质,又能使训练速度提高约28.57%。其次,为了进一步优化生成网络,提出了一种全新的图像代表性-多样性奖励模型。在生成网络中实现该模型能够优化图像中更具代表性且内容更需要被完善的区域,以此来生成具有更丰富细节的图像。大量实验结果证明了该方法的有效性及先进性。在两个数据集上,该方法使注意力生成对抗网络将图像的Inception Score值分别提高了 4.28%和4.39%,并且生成的图像拥有更加丰富的细节以及多样化的内容。最后,关注判别模型的改进方案。通过为输入判别器的图像子块赋予不同程度的注意力,判别网络能够更加严格地审视待评估的图像,从而引导生成模型生成符合更高标准的高品质图像。实验结果表明,该方案能够在一定程度上优化图像的生成效果。
其他文献
为了达到较高的跟踪精度以及较快的跟踪速度,传统的目标跟踪算法均基于相邻帧目标位移和视觉特性均匀变化的假设而设计。然而,在无人机和无人艇等存在较大运动速度的视觉平台上,基于上述假设的目标跟踪器将有较大概率出现跟踪失效。针对目标位移变化较大的问题,本文提出了基于由粗到精框架的级联跟踪算法以及基于关键点匹配的自适应全图跟踪算法。针对动平台导致的目标视觉特性变化大的问题,本文进一步结合深度学习框架提出了基
伴随着中国互联网化和移动互联网化的进程,位置服务产业逐步发展。在用户需求的推动下,位置服务与城市服务不断融合,位置服务业务将不断提高用户的娱乐、生活和社交需求。在
本课题针对金属镁冶炼过程中,为解决人工操作的安全隐患并提高镁冶炼效率,设计出一套镁冶炼还原罐机械臂排渣装置代替人工排渣。该装置由红外视觉定位系统和六自由度工业机械臂组成,红外视觉定位系统实现炉渣的目标定位,控制机械臂末端由初始位置移动到目标位置实现排渣动作。本课题研究的重点是实现机械臂对目标炉渣的定位,使用红外阵列传感器和CMOS摄像头结构化标定构造出一套红外视觉定位系统。分别利用红外阵列传感器横
目前,限制环境下的人脸识别方法的性能已接近饱和。同时,城市监控摄像机数量和质量的上升,使得人脸数据采集难度大幅下降,进一步拓展了人脸识别技术的市场应用,如安保,监控等
随着物联网在工业、农业、交通和医疗等社会和经济的各个领域的广泛应用,物联网设备的数量呈现了爆发式的增长。在这种情况下,传统的正交接入技术无法满足大规模设备的接入要
个性化推荐作为解决信息过载的一个有效手段已经成为工业界和学术界研究的热点,根据反馈信息的不同,可以划分为面向显式反馈和面向隐式反馈的推荐。其中,前者是个性化推荐的主流,而后者的普遍性使得此类推荐方法有更高的研究和应用价值。然而隐式反馈的若干缺陷给推荐带来了很大的挑战。论文首先分析了隐式反馈的特点,随后分类阐述了当前主流的面向隐式反馈的推荐方法的特点:包括单类协同过滤、基于学习排序的推荐以及其他结合
在我国新型城镇化进程加速推进和经济转型升级不断深化的背景之下,具有新时代标签意义的特色小镇应运而生。作为当下新型城镇化建设和供给侧结构改革的创新发展模式,持续稳定
本文在对最新的国内外相关自动化设备情况进行梳理汇总的基础上,对折弯机器人工作站的结构组成、工作原理以及相关控制方式进行说明,为机器人在钣金加工领域的实际应用提供一
量子弹球和量子图是量子混沌领域中的两个重要模型,它们常常被用于量子系统能谱特性的数值和实验研究。到目前为止,有很多工作对具有经典混沌动力学的量子系统进行了研究。在
改革开放以来特别是党的十八大后,中国的经济综合实力和科技实力显著增强,但中国社会发展现状没有改变,仍处于社会主义初级阶段,生产力水平还有待提高,技术与经济的融合还不