【摘 要】
:
单目标跟踪指在给定某视频序列初始帧中的目标大小与位置的情况下,预测后续帧中该目标的大小与位置。虽然深度学习技术近年来在单目标跟踪领域发展迅速,但是由于现实场景中存在诸多挑战因素,目前仍然没有一个可针对单个行人进行准确跟踪的跟踪模型。本论文主要解决基于多尺度特征融合的单人目标跟踪问题,特别是提升视频中单个行人检测和跟踪性能。本论文在深度学习的基础上以设计准确的单人目标跟踪模型为目标。首先通过结合语义
【基金项目】
:
江苏省重点研发计划(社会发展)项目,基于移动物联网和大数据挖掘的全民健身和体育竞技场馆信息服务系统及应用示范(BE2016778); 江苏省重点研发计划(社会发展)项目,基于多无人机自组织感知和视频深度挖掘的露天安全生产监控系统研发及应用示范(BE2019739);
论文部分内容阅读
单目标跟踪指在给定某视频序列初始帧中的目标大小与位置的情况下,预测后续帧中该目标的大小与位置。虽然深度学习技术近年来在单目标跟踪领域发展迅速,但是由于现实场景中存在诸多挑战因素,目前仍然没有一个可针对单个行人进行准确跟踪的跟踪模型。本论文主要解决基于多尺度特征融合的单人目标跟踪问题,特别是提升视频中单个行人检测和跟踪性能。本论文在深度学习的基础上以设计准确的单人目标跟踪模型为目标。首先通过结合语义特征来提高行人检测模型的准确率,为单人目标跟踪奠定基础,其次设计一种基于多尺度特征融合以及膨胀卷积改进的单人目标跟踪模型,最后设计一种基于自注意力机制和交并比损失函数的实时单人目标跟踪模型。本论文的主要工作如下:(1)提出通过在现有检测模型中结合语义特征,解决一些硬性物质被误检成行人的问题。针对目标在图片中所占像素少的问题,使用感兴趣区域池化结合高层以及低层特征的方法对算法进行改进。将改进的模型在Caltech数据集上进行实验,实验表明改进的模型可以有效解决其他物体被误检为行人的问题。(2)提出将使用膨胀卷积获得的更大感受野的特征与通过标准卷积方式获得的特征进行融合以获得更加丰富的特征。其次通过使用低层网络与高层网络输出的特征进行融合以获得图片的纹理等细节信息以及高层语义信息,最后使用现有的单目标跟踪模型对图片序列进行预测,由于部分图片跟踪结果准确,减少了制作数据集所需消耗的大量的时间和精力。将改进的模型在数据集上进行实验,实验结果表明,相较于原模型,改进的模型有着更高的跟踪准确率。(3)提出使用多层特征融合的方式对模型进行改进以获得更多图片的特征信息,使用自注意力机制捕获多帧之间依赖关系,解决只依赖前一帧影响跟踪效果的问题。最后在原损失函数的基础上添加交并比损失以使模型的预测边框可以更好的与真实边框重合,从而提高跟踪模型的性能。将改进的模型在数据集上进行实验,实验结果表明改进的模型可以获得更加丰富的特征以增加模型的鲁棒性。
其他文献
近年来,我国正在积极建设综合高效的智能运输基础设施。隧道作为重要的交通设施之一,在其长期使用期间,隧道衬砌会不可避免地出现各结构病害,会危害到隧道的安全运营。因此隧道衬砌结构病害高效的识别与分类,有利于保证隧道运营安全,有一定的工程应用价值和显著的社会经济效益。探地雷达(Ground-penetrating Radar,GPR)是目前广泛使用的隧道衬砌结构病害检测工具。但目前对于GPR数据的解释主
近来,全球经济快速增长,能源的消耗日益上升。建筑物的传统温控方案,造成了一定的能源浪费,并且存在忽略人体冷热感受的情形(例如在空调开启的情况下感到很冷或者很热)。构建实时的非接触式人体热舒适检测则能够有效缓解以上的情况,实现“以人为本”智能建筑。而目前的非接触式热舒适检测主要使用红外等设备,由于其价格昂贵,安装不便等原因,其并不能很好的应用于智能建筑的热舒适环境。同时,现有的一些使用图像捕捉等设备
聚类(Clustering)是一种用于探索数据结构的数据分析技术,它能够根据数据特征进行分类,将具有相同或相似性质的数据划入同一个子组(簇),不在同一簇中的数据通常其性质是不同的。聚类分析是基于特征的基础上找到样本的子组,或是在基于样本的情况下找到特征的子组。在聚类分析中引入差分隐私技术是当前研究领域绕不开的热点。差分隐私是一种数据失真技术,能够抵御任何背景知识下的攻击,且不受数据集大小的限制。在
目前大数据和人工智能与我们的日常生活的联系日益密切,商标必须经过有关部门审批通过才能得到法律的保护,随着经济的发展,商标注册数量剧增,在申请和审批时,为了避免申请的商标和已有商标相似,需对已有商标进行检索,但传统手工检索商标速度慢,存在漏检等弊端,所以本文对商标自动检索系统进行了研究。本文设计了一个自动商标检索系统,该系统由图像预处理模块、BOF模型制作模块和分类器模块构成。商标检索涉及的商标原始
随着移动智能设备技术的推广,人们对于位置服务(Location Based Services,LBS)的需求变得越来越普遍,与此同时,人们对位置服务的准确性有了更高的要求。虽然传统的定位系统可以很好的应用于空旷、遮挡情况不严重的室外环境,但在遮挡严重且定位精度需求更高的室内环境中表现不佳。由于室内工作与生活的需要,在不久的将来,室内位置服务需求必然会是一个巨大的流量入口。在室内环境中,GPS信号难
在当今社会,网络已经成为人们获取信息的主要来源。海量的数据信息使得人们很难能够快速获取满足自己需求的信息,而推荐系统能够帮助人们实现这一目标。协同过滤推荐算法是推荐算法中被应用最成熟、最广泛的算法,但其数据稀疏性问题往往制约着推荐质量。本文针对数据稀疏环境下的协同过滤推荐算法进行研究,从不同的角度提出了相应的改进算法,用来提高推荐的精确度。本文首先从用户之间相似度计算的准确性角度进行研究,提出了一
现有的代码检索研究以神经网络模型与社区问答数据相结合、对用户查询和代码片段联合建模为主,但是针对神经网络模型与代码仓库中的Pull Request(PR)信息结合进行研究的工作较少。代码特征抽取技术通常将神经网络模型与社区问答数据和开源代码数据预处理相结合,对用户查询和代码片段联合建模,但是模型高度依赖于精标注数据集,使用大规模粗标注数据集训练得到效果一般。基于上述问题,本文提出了一种基于扩展查询
共享可以提高数据的价值,但是在共享过程中,存在集中部署、恶意窃取以及篡改等安全隐患问题,极大影响到数据的安全。在面向群组的数据共享场景中,为了保护共享数据的机密性,组成员之间需共享一个群组密钥,群组内的所有通信内容均需使用此群组密钥加密。因此,密钥安全是数据安全共享的前提。密钥的安全面临着三个问题,第一,分布式密钥管理方案因其消除了中心化的威胁而被广泛使用,而分布式的管理对密钥的一致性和验证性提出
智慧医疗在人们生活中占据的地位越来越重要,随着网络发展,医疗场景下不同信任域之间交互越来越频繁,在交互过程中涉及到的跨域身份管理和认证问题对智慧医疗场景下数据安全的发展有着重大意义。目前比较多应用的认证框架主要有基于身份信息证书的私人公钥基础设施(PKI)和基于个人身份信息的密码管理体制(IBC),以上两种类型的框架结构已经日益完备,但仍然还存在一些缺陷,且大部分医疗机构中的证书身份等信息都是集中
视觉同步定位与地图构建(SLAM,Simultaneous Localization and Mapping)是智能机器人研究领域中的关键技术。传统视觉SLAM方案大都基于特征点法或直接法,这两种方法有着各自的优势和不足。本文旨在结合特征点法和直接法的优势,提出了一种基于半直接法的单目视觉SLAM方法,其主要的工作内容如下:1)首先,本文在ORB-SLAM框架基础上,结合了特征点法和直接法的优势。