【摘 要】
:
随着目标检测领域的不断发展,人们逐渐发现,标注成本问题成为了限制其发展的重要因素之一。如何使用简单标注的数据集训练出高精度模型成为了亟需解决的问题,针对此问题,研究者们提出了弱监督目标检测算法。虽然人们逐渐攻克了弱监督检测中遇到的一些挑战,但困扰着该领域的两大问题依然未被完全解决。第一个问题是多尺度检测问题。现有的检测方法更倾向于定位和识别尺度变化不大的目标,很难同时检测出较大和较小的目标。多尺度
论文部分内容阅读
随着目标检测领域的不断发展,人们逐渐发现,标注成本问题成为了限制其发展的重要因素之一。如何使用简单标注的数据集训练出高精度模型成为了亟需解决的问题,针对此问题,研究者们提出了弱监督目标检测算法。虽然人们逐渐攻克了弱监督检测中遇到的一些挑战,但困扰着该领域的两大问题依然未被完全解决。第一个问题是多尺度检测问题。现有的检测方法更倾向于定位和识别尺度变化不大的目标,很难同时检测出较大和较小的目标。多尺度问题最早出现于全监督检测领域,但在弱监督检测中尤为明显。第二个问题是目标检测不准确问题,顾名思义,弱监督检测算法倾向于定位目标的局部,很难检测出完整的目标。为了解决这两个问题,本文从几方面进行了深入的研究,相关研究工作如下:(1)为了解决多尺度问题,本文从全监督检测领域入手,提出了基于环状金字塔式特征融合的改进Faster R-CNN模型。本文首先通过实验分析,得知特征金字塔网络(Feature Pyramid Networks,FPN)的劣势在于其特征融合方式。针对其缺点,本文提出了融合自适应提取(Fusion-Adaptation-Extraction,FAE)模块,将各层特征信息补充到某个特征层上,使得该特征层具有更强的表征能力。为了进一步融合所有特征,本文又提出了一种递归式多尺度特征融合方法,通过递归的方式融合各层特征。本文将所提框架与Faster R-CNN结合,得到了基于环状金字塔式特征融合的改进Faster R-CNN模型。实验结果表明,该模型取得了超越主流方法的性能,在PASCAL VOC 2007和MS COCO数据集上,m AP达到了82.0%和43.3%。(2)为了解决目标检测不准确问题,本文提出了基于边框分级筛选的弱监督目标检测算法。该算法通过对一阶段弱监督检测方法生成的候选边界框进行质量评估,达到了筛选候选框的目的。同时,该算法还将这些候选框连同它们的置信度一同制作成伪标签,并通过一个设计好的类全监督方法训练这些伪标签,得到效果提升后的模型。实验结果表明,该算法在MS COCO和PASCAL VOC数据集上达到了超越主流方法的性能。(3)在第一二部分工作的基础上,综合考虑多尺度检测和目标框检测不准两方面问题,本文提出了基于特征融合的轻量级弱监督目标检测算法。该算法通过将弱监督检测算法第二阶段模型替换为基于特征融合的YOLO模型,既解决了多尺度检测问题和目标检测不准问题,又达到了提升检测速度的目的。同时,算法还将关键位置的NMS操作替换为不同的NMS变体,进一步提升了检测精度。实验结果表明,在MS COCO数据集上,本文所提算法在性能与速度上明显优于主流的弱监督目标检测方法。
其他文献
短句语义相似性判别作为自然语言处理的基础任务,对于下游的数据挖掘、信息检索、机器翻译等任务具有极其重要的作用。在目前基于匹配聚合框架的语义相似性模型中,序列对齐的过程中只考虑了单个特征空间的语义信息,并且对于全局信息的利用不够充分。另外,将序列转化为固定维度的向量的单步预测方式也会造成序列中重要信息的丢失。解决上述问题对于模型性能提升具有积极的作用。本文针对上述两方面的问题,提出基于混合全局信息的
近年来,作为一种能展现360度全方位视角的媒介,全景视频在监控、场景展示、赛事直播等领域展现了独特的魅力,逐步走进大众视野。全景视频具有视角广阔、高分辨率、高帧率、数据量大的特点,为存储和传输带来困难,因此亟需有效的全景视频编码方案。在全景视频编码过程中,投影方法与编码算法是最关键的两个要素。本文围绕全景视频的特性,提出了如下几种投影方法,以适配随后的全景视频编码:(1)提出近似均匀采样的少畸变双
随着互联网技术的高速发展,网络中的数据量呈指数式增长。在信息过载的情况下,用户难以及时、准确地发现感兴趣的商品。推荐系统通过分析用户与物品的相关特征,从而为用户过滤大量无关信息,推荐符合其偏好的商品。推荐系统的准确性常因两大问题受到限制,一是评分数量过少导致的数据稀疏问题,二是新物品或新用户加入导致的冷启动问题。本文主要针对这些问题对推荐系统进行研究,以提高推荐结果的准确性。本文立足于推荐系统中与
病理图像检查被誉为诊断癌症、预后和指导治疗的金标准,同时也是连接诊断和治疗的关键环节。它通过观察活体组织结构和细胞病变特征做出诊断,其结果相比其他诊断方法更加权威,是目前最主要也最可靠的癌症诊断方法。随着数字成像设备和病理切片制作技术的不断发展,病理医生可以借助先进的成像设备扫描活体组织样本,并通过计算机观察其生成的全切片图像。然而,全切片图像的分辨率极高,并且图像内容复杂,涵盖了百万数量形态多样
文字记载了几千年人类的文明和历史,是人类信息中最重要的载体。直至今日,现实生活中的众多场景都使用文字形式来进行信息交互。而图像是记录文字信息最快速的载体。在快节奏的生产生活中,信息的电子化处理已成为一种不可逆转的趋势。识别并理解图像中的文字信息就具有很高的研究价值和广泛的应用场景,能使生活变得越来越智能化和便捷化。虽然文字识别技术已经发展了多年,但是由于中文汉字的字符类别多、字形复杂、词频不均衡,
可逆水印,作为一种特殊的数字水印技术,需要提取方在正确提取水印后无失真的恢复原始载体。这种可逆性对于医学、军事和法律等具有高保真要求的特殊领域至关重要。但是,含水印图像在信道的传输过程中会产生一定的质量损失,这就要求可逆水印同时可以抵抗一定程度的攻击,比如JPEG压缩和噪声等非恶意攻击。因此,鲁棒可逆水印(Robust Reversible Watermarking,RRW)技术应运而生。鲁棒可逆
随着无线通信技术的不断发展,车联网正朝着异构化的趋势不断演进。异构车联网将短距离通信、蜂窝网等技术结合在一起,满足了不同场景下的车载业务需求。面对车联网中复杂的网络拓扑和严苛的通信条件,如何保证车辆移动时网络连接的稳定性,提升车联网技术辅助下车辆的驾驶安全是目前学术界研究的热点。早期的异构车载网络大多依靠远程云服务器进行海量数据的分析与决策,由于传输距离较远很难对一些时延敏感型数据进行实时处理。利
近年来,随着互联网和多媒体技术的飞速发展,数字信息以图像、视频、文字等形式被广泛传播。多媒体数据易被非法获取和篡改,从而导致严重的信息安全问题,例如版权纠纷、数据泄露等。作为多媒体数据版权保护的一种有效方法,数字水印技术在不影响视觉效果的情况下,将标识信息嵌入到多媒体数据中,从而利用提取的嵌入信息确认版权。本文针对最广泛使用的多媒体数据载体,即图像和视频,研究了不同嵌入规则下的鲁棒盲水印方法,优化
涉案财物管理是刑事诉讼程序中一项十分重要的内容。当前,我国对于涉案财物采用“实物移送,各自管理”的管理模式。这种模式容易出现业务衔接不畅、司法效率过低以及涉案财物被非法侵占等问题,其原因在于公安机关、检察院和法院等涉案财物管理单位之间往往会产生信息孤岛效应,导致信息传递与财物转移失去一致性。本文针对这一问题进行分析,利用区块链技术构建了涉案财物跨部门转移的协同管理过程,重点研究了共识的形成机制。本
四维光场相机被认为是优秀的成像设备,具有广阔的发展前景。其和传统的相机相比,不仅可以记录每个像素的强度,并且可以记录光的方向,提供了丰富的结构信息。通过获取光场中的有效信息,许多基于视觉的应用得以进一步发展,如虚拟现实、重聚焦、三维重建等。而基于光场的三维重建,可以准确地恢复场景的三维结构,所以逐渐成为了国内外研究的热点。本文将基于光场的三维重建分为两个部分进行介绍:在同一个光场中,包含了针对同一