基于深度学习的视觉目标识别与定位技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:eacy_tang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的发展,人们希望无人系列产品可以帮助人们执行智慧城市下的交通运输、异情监控以及未来战场上的敌情侦测、敏感目标追踪等任务,这需要机器可以对采集的图像数据中相关的视觉目标进行准确地识别与定位。近年来,基于深度学习的目标检测方法在计算机视觉领域取得极大的成功,已成为该领域的研究热点。然而,面对上述应用场景,当前主流基于深度学习的检测方法存在目标漏检、相似目标误判等问题。过深的网络也会带来巨大计算量与模型体积,使网络模型难以在实际中部署与使用。针对上述问题,本文将重点开展基于深度学习的视觉目标识别与定位技术研究,完成的主要工作如下:(1)针对卷积神经网络无法有效利用图像空间结构特征信息的问题,提出一种基于循环神经网络的空间结构特征提取方法。通过设计一个可训练的空间结构特征提取器,作为神经网络的一个全新层,配合卷积可以得到更具表达能力的融合特征。为提高该特征提取器的实时性能,设计其前向推理与梯度反向传播过程的并行化方案。之后,基于高性能并行计算架构CUDA给出其工程实现方法。(2)针对广域场景的特点,设计一种新的具有特征中继放大、多尺度特征跳级连接结构的轻量化特征提取基础网络,用以提取广域场景中各个尺度目标的特征。进一步地,给出一种方案,将本文的空间结构特征提取器耦合进该基础网络,用以提取具有更强表达能力的多融合特征,供后续识别与定位任务网络使用。(3)在Faster R-CNN检测框架下,改进其识别与定位任务网络。用K-Means方法获取场景中目标的尺度分布,从而选取更合适的预设锚框,减轻网络学习负担。之后,给出一种并行计算方法,解决top-K候选框选取问题,加快网络的整体运行速度。最终,提出一个适用于广域场景和无人系列装备的快速、精准、轻量化目标检测网络模型,用以对相关目标进行精准的识别与定位。(4)在KITTI和Pascal VOC数据集上,将本文模型与Faster R-CNN和SSD模型进行对比实验与结果分析,研究了在面对不同场景和不同种类目标时,本文检测模型的优势与不足。实验结果表明,本文模型在广域场景下具有更优的检测性能与实时性能。同时,通过测评指标的对比,对本文模型存在的局限进行了分析。
其他文献
产权即“财产权”,兼具经济学及法学涵义。我国改革开放30多年来,农村产权改革、国企产权改革等多个领域成绩斐然,但是,快速发展的背后也累积了一些深层次矛盾。从整体上看,
目的了解开平市陶瓷卫浴洁具生产工人罹患呼吸系统疾病情况,为预防和控制尘肺病的发生提供科学依据。方法对该市某卫浴洁具生产厂接尘组和对照组分别进行职业病危害因素环境
通过对柳州师专大学语文教材、教师阅读教学策略以及学生态度的调查研究,发现该校缺乏教材选择的灵活性,教师的大学语文阅读教学模式陈旧,阅读教学方法单一,大多数学生对大学
目的:本文研究的重点是挖掘已成为当今整容手术最大市场之一的中国,患者需确定术前注意事项和满意度,并履行手术在社会中的影响。经济和年龄问题,可能会阻碍或鼓励个人实施整
玛格丽特·杜拉斯因其神秘的文化身份,多舛的命运和形式多样的文学创作被视为走在文化潮流尖端的见证者,而她难以揣摩和释读的风格更引来无数异议,被定义为游离于新小说风格
目的:探讨发泡胶个体化头枕在头颈部肿瘤调强放射治疗体位固定中的应用价值。方法:选取92例头颈部肿瘤患者,共进行589次锥形束CT(CBCT)扫描,其中44例患者采用发泡胶个体化头枕体
文章依时间顺序将美元国际化进程划分为四个阶段,对每个阶段美元国际化进程进行详细介绍和评价,最后对美元国际化进行深入分析,相应提出人民币国际化建议。
目的:本课题以细胞因子IL-15、IL-2、IFN-γ相关研究为基础,以肺结核初治合并支气管结核患者为主要研究对象,主要通过检测上述细胞因子在血清中的浓度及治疗前、治疗1月末、治
明中叶以后,华南沿海及其腹地在海外贸易、山区开发等因素推动下,市场的整合度越来越高,一些沿海的商业聚落应运而生。位于粤西高州府有着“小佛山”之称的梅菉镇即是其中的
背景:COPD(慢性阻塞性肺疾病)发病率很高,是我国的常见疾病,由于病程进展缓慢,严重影响了患者的劳动能力和日常生活质量,其全球发病率在4—10%,中国40岁以上人群COPD的发生率