基于深度学习的视觉检测与分类方法

来源 :南京大学 | 被引量 : 0次 | 上传用户:sdbradycn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体和互联网相关技术的发展,图像语义理解在人们的日常生活中扮演了越来越重要的角色。基于计算机视觉的图像检测与分类在实际生活中的应用场景越来越广泛。图像中文字信息的智能提取与分析,特定场景下人脸识别等视觉检测与分类问题显得尤为重要。尽管视觉检测方法在过去有着深厚的研究基础,由于各种图像背景的干扰以及图像本身的复杂性,高效可靠的视觉检测与分类技术仍然充满了挑战。最近几年,越来越多的研究者认识到深度学习模型在处理图像语义理解方面的优势,并将深度学习的研究作为视觉检测与分类任务的突破口之一。本文主要从深度学习的结构出发,研究了深度学习的数据层、损失函数层和模型的迁移技术。并且我们还在实际的视觉检测与分类任务上加以应用和验证,论文主要的工作和贡献包括:首先,我们针对深度学习处理尺度不一的图像需要缩放、裁剪的问题,引入空间金字塔汇合的池化操作,使得卷积网络可以适应不同大小的输入图片。这样就能够利用图像的全局信息,避免不必要的可能会带来信息损失的裁剪、缩放等操作。我们将此模型应用到图像中的文本检测领域,取得了令人满意的结果。其次,在深度学习模型的损失函数方面,我们将度量学习与深度学习相结合,对深度学习的损失函数进行改进。使用Triplet loss替代原始的Softmax函数,通过构建三元组来将距离度量引入到深度学习模型。我们将学习到的特征用欧式距离来表达,最小化同类之间的样本距离,最大化不同类样本间的距离。使用Triplet loss能够使得不同类别之间的差异度更大,二者之间的界限更明显,尤其是对于二分类的视觉检测任务效果提升明显。最后,对于训练样本较少,训练时间、训练数据均存在约束时,我们提出了使用深度层次网络结合迁移学习进行微调。我们采用公开的预训练模型,将模型的权值作为训练新模型时的初始权值,并且在训练新模型时,根据原模型与新模型之间的相似度关系决定微调的网络层次。最后我们给出了实用性的训练时学习率的改变策略,在人脸检测与识别的任务上,效果提升显著。
其他文献
随着高校学生的就业问题越发明显,在此就业与经济的双重压力驱动下,国内的双创教育越来越得到高度的重视。近年来,国家由上至下颁布了诸多鼓励双创的政策,高校大学生作为国家的高等人才,对于其双创教育的培养将影响到未来10-20年国家就业的中坚力量。而双创基地作为创双教育的承载场所,需要给学生们提供双创所需的场地,于此同时也要在气氛上营造良好的氛围,以促进创教育的开展。本文以高校大学生创新创业实践基地为研究
I’m Wang Xiaoai, a student from Luoyang Middle School. I have a healthy life.  I get up very early. I usually take a walk before breakfast every morning. I study hard at school. I often play sports fo
药学专业人才在保障人民用药安全有效,增强自我保健、自我医疗意识,合理利用医疗卫生与药品资源,促进医疗卫生体制改革等方面起主导作用.
本文结合当前高职院校图书馆员的素质现状,阐述了提高馆员素质的重要性,提出了提高图书馆员自身素质的主要途径。
感恩节过后的周五,是美版“双十一”-BIackFriday,俗称“黑色星期五”,是美国人民疯狂买买买的开始。今天,我们就来跟大家聊一下美国的“黑色星期五”。传统的假日购物季通常从黑
目的:探讨广州市中小学生肥胖的环境相关因素;识别FTO、IRX3基因遗传变异及其基因-环境交互作用对儿童青少年肥胖的影响。研究方法:依托广州市中小学生常规体检工作,采用病例