基于对抗学习的多域自适应目标检测方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:pandawang1231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测是计算机视觉中的重要分支,由于不同场景之间的特征分布差异(如背景、光照等),在公共数据集上训练的目标检测框架在现实场景中使用时往往会出现性能下降的问题。解决该问题的方法是采用域自适应技术使在源域训练的模型在目标域中也可以很好的使用,但是传统的自适应方法通过对齐不同域之间的边缘分布以减少特征分布差异,但是可能会导致负迁移的问题。此外,仅仅考虑了单一目标域的自适应场景,限制了模型的适用范围。文章针对上述问题,基于域自适应理论展开了对深度域自适应目标检测技术的研究。提出了基于域自适应技术的目标检测模型,主要研究内容如下:(1)对卷积神经网络、目标检测技术、协同训练以及域自适应技术等方面进行了研究,为后续设计域自适应目标检测模型提供了强大的技术基础。(2)提出了加权特征对齐域自适应目标检测模型,该模型采用了对抗学习的方法将特征提取网络作为生成器,同时构造了两种不同的域分类器作为判别器,通过生成器与判别器相互博弈来学习局部和全局尺度的领域无关特征。同时为了避免自适应过程中的负迁移问题,根据半监督学习中的协同训练原理,设计了并行协同训练网络从数据集的不同视角中获取对齐强弱程度。最后通过特征差异惩罚模块,根据强弱程度动态的调整对齐强度。实验结果表明,采用多级域自适应模块后,网络在目标域上的检测精度比未加入自适应模块提升了13%m AP;同时,与主流的域自适应目标检测网络相比精度提升了1~2%m AP。(3)提出了适用于多目标域的域自适应目标检测网络,以解决传统域自适应模型仅局限于单一源域和单一目标域之间自适应学习的问题。该模型通过设计增量学习网络来保存旧领域知识所对应的权重,并将知识融入到新任务中从而避免模型在学习多个任务知识的时出现“灾难性遗忘”的问题。同时,为了使模型连续学习多个目标域特征,设计了一种训练策略来融合多个领域特征。在多领域数据集上与主流的模型进行了比较,实验表明,相比于主流的域自适应模型,该模型在多个目标域上都可以保持较高的检测精度,不会出现灾难性遗忘。综上所述,本文提出的两种域自适应目标检测模型可以有效的缓解由于领域特征分布差异导致模型在目标域上检测性能下降的问题,同时拓宽了域自适应模型的适用范围,避免了负迁移问题的出现。
其他文献
随着现代物质水平的丰富,使人们对生活有了更多新的需求。用户不仅满足于产品可以完成某项特定功能,而是对产品有了更高的期待。产品在满足用户基本生理需求和安全需求的基础上,更加追求来自社会中的情感需求,因此情感化设计逐渐成为设计师的关注点。设计师希望通过情感化设计让用户感受到产品的温馨,为用户在使用产品时打造良好的情感体验,同时也能让用户更深刻地理解产品的价值。情感化设计离不开用户的心智,在用户心智与产
在我国城市养老问题日趋严重的背景下,在城市老城区养老院项目的设计前期进行科学合理的选址可以降低后期项目设计、施工、运营的难度,促进养老资源的合理配置。然而,老城区养老需求条件的复杂性、选址影响因素的多样性、选址规划方法的主观性等问题的存在导致养老院选址规划的科学性与准确性较低,一定程度上造成了养老资源的浪费。因此,笔者以提升老城区养老院项目选址规划的科学性为切入点,以Arcgis空间分析系统作为技
随着北斗系统导航定位技术的发展和在各个行业的应用,其对定位解算的精度要求也越来越高,因此如何提高定位精度成为学者和工程人员们研究的热点。伪距定位作为基本定位方法,在民用导航和高精度定位初始位置确定方面发挥重要作用。多路径效应作为影响定位精度的主要因素之一,在城市楼宇密集的地方不易削弱且严重的影响着定位精度。故而针对伪距定位和多路径误差这两个方面,本文主要的研究内容如下:(1)着重分析了导航定位前期
对海量的能耗供给数据进行可视化可以实现对能源供给设备实时产生的能耗数据的各种属性以图形化的方式直观的呈现给用户,为能耗供给数据可视化分析提供有力的保障。随着智慧城市的发展,供给数据变得日益复杂,基于能耗供给数据展示供给的态势信息以及监控数据异常是维护供给过程安全稳定的主要任务。针对现有的可视化系统不能很好的展示供给线路和多维层次信息,本文首先总结了时空数据和能耗供给的可视化技术,然后提出了基于多维
激光雷达是探测大气的一种有效手段,常应用于探测大气气溶胶分布、空气污染物分布、大气成分组成、大气气象参数等场景。激光雷达具有实时性好、时空分辨率高、重复性好等突出优点。为了提升激光雷达的移动性,增加探测范围,车载扫描激光雷达得到更多的重视。根据实际项目需求,本文以某车载大口径扫描激光雷达收发装置的研制为研究内容,论述了该系统的设计理论、设计模型和装调结果。该车载大口径扫描激光雷达收发装置光学系统由
大量的人类知识是以非结构化自然语言文本的形式传递的,因此使机器能够阅读和理解文本具有重要的意义。近年来,随着许多该领域数据集的涌现以及深度学习的进步,机器阅读理解在自然语言处理领域受到了广泛的关注。本文专注于研究基于语境化词嵌入与注意力方法的机器阅读理解模型,探索如何解决许多基线模型存在的准确度不足以及训练和推理速度缓慢的问题,主要研究成果如下:(1)部分经典基线模型无法有效结合上下文信息进行进一
人类自身所发出的声音与其面部图像之间存在着复杂的关联性,并且可从声音信号中推断出与该说话者面部有关的静态属性信息和动态变化信息。语音驱动人脸生成的任务正是挖掘语音信号与面部图像之间的静动态关联性,构建相应的视听觉跨模态图像生成模型,实现由给定的语音片段来生成静态人脸图像和动态人脸序列。现有的方法在研究静态人脸图像生成时多是利用时序对齐的视听觉数据集来实现身份一致的人脸生成,但是在实际测试过程中由于
异常检测作为计算机视觉中的一个重要分支,广泛地应用于公共安全、欺骗检测、视频监控等领域中。“异常”数据根据实际情况的变化而有所不同,本文中的异常主要是指预期以外的事件,通常伴随图像模糊、颜色失真、光流突变等。受制于异常数据量较少且分布广泛、标记数据的耗时等问题,结合一分类思想的生成对抗网络模型已成为主流,本文首先介绍当前较为流行的基于重构的异常检测模型,训练时只使用正常数据进行训练,学习到正常数据
技术对于解决视频数据量不断增长所带来的浏览耗时的问题有着重要的意义。视频摘要即对视频的概括,按照生成的摘要形式可以分为静态视频摘要和动态视频摘要。在实际工程应用中,静态视频摘要技术更为常用,因此本文主要研究静态视频摘要算法,旨在通过一定的技术手段去除视频中的冗余信息,并选取视频中最能代表视频内容的关键帧生成简短的摘要。本文分析了现有的视频摘要算法所存在的一些不足之处,然后提出了两种全新的基于多特征
随着智能信息化时代的到来,诸如图片,视频,文本以及音频等不同模态数据在互联网上与日俱增,这些多模态数据以不同的形式描述着生活中复杂纷繁的场景,并为彼此提供了有用的互补信息。不同模态的数据在其原始形态上呈现出明显的异质性,难以直接将它们从语义层面建立关联。因此,需要将不同模态数据映射到共有子空间并减小它们之间的差异性。跨模态表示学习旨在减小不同模态数据在特征层面的差距,建立起模态间的语义联系并扩大模