面向智能设备的轻量化环境感知和理解算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:xia226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,基于深度学习的图像感知算法虽然取得很大的进步,但是仅利用图像信息只能帮助智能设备去感知静态的外界环境,无法提取到时序动作信息和关系信息。视频数据在当今社会生活中爆炸性增长,相比于图像数据,视频数据拥有视觉信息,听觉信息,以及时序信息,利用它可以更好地帮助智能设备去感知和理解外界环境。在深度学习领域,视频作为样本输入可以带来更多的信息,也带来了更为庞大的计算量。因此,如何降低视频深度学习算法的计算量已经成为一个重要的研究问题。在很多智能设备上如嵌入式移动终端,机器人、无人机、无人车等均会有视频数据的产生和传输,然而这些设备一般不具有强大的算力资源,传统的基于视频数据的深度学习算法计算量大,无法在低算力的智能设备上顺利部署使用。同时,目前大多数智能设备采集的环境视频数据,一般将数据传输到远程服务端,然后再进行算法处理。由于部分场景如无人驾驶,无人机等要求具有高稳定性,低延时,将视频传输回到远端服务器进行处理不可避免会存在延时问题。因此,亟需在智能设备上部署一套轻量化的视频理解算法,是提升无人设备智能化水平的重要手段。为了解决以上问题,本文首先研究了深度神经网络轻量化技术,在此基础上,深入研究了基于深度神经网络的环境感知和理解算法,构建了基于环境视频作为输入的多模态数据的特征提取和特征融合模型。本文主要研究内容和创新点如下:(1)针对2D神经网络计算量大导致单帧图像特征提取速度慢的问题,本文提出了 Mobile SOSA模块和MEESP模块,基于这两个模块构建了轻量型2D卷积神经网络M-SOSANet。为了验证网络的基础特征提取能力,使用该网络模型进行图像分类的实验,在CIFAR-10,CIFAR-100,ImageNet-1000k 分别到达了 95.64%,78.6%,72.8%的top-1精度,仅有290MFlops的计算量消耗。为了验证网络的泛化性,使用该网络进行语义分割的实验,在PASCAL VOC 2012上达到了 67.8%的mIOU,仅有0.82BFlops的算力消耗。为了分析神经网络在真实设备上的实时性,分别在TITANX,15-8400,嵌入式设备Jetson TX2等三种不同类型设备进行验证,实现结果表明,M-SOSANet在以上三种设备运行的速度分别为180fps,44fps,5fps。(2)针对基于3D神经网络提取视频特征计算量大的问题,对2D卷积神经网络RegNet进行重构设计,构建了轻量型3D卷积神经网络RegNet3D。首先,为了验证神经网络的基础特征提取能力,在较大规模的动作分类数据集SomethingSomethingV2进行实验,达到了 45.07%的top-1精度,相比其他算法,计算量和参数量分别下降8倍和6倍。为了验证网络对局部动作信息的提取能力,在大规模手势分类数据Jester进行实验验证,达到了 90.1%的top-1精度,计算量仅有0.62BFlops;为了验证网络的迁移泛化能力,在中规模的视频数据集UCF-101进行实验,最终达到了 87.4%的top-1精度。(3)针对现有图像分类模型RegNetX-400M无法有效提取视频中的音频模态数据的特征和未经过大规模数据集预训练影响其精度的问题,本文引入了概率知识迁移的知识蒸馏方法。对该网络在著名声音场景分类数据集UrbanSound8K上进行实验,在未引入知识蒸馏时达到了 78.3%的精度,引入之后提升至92.3%。并且该神经网络的计算量仅由0.8GFlops,参数量5.2M。(4)为了更好融合多模态特征,解决传统transformer结构存在计算量大和参数量大的问题,本文提出了跨模态的自注意力机制,使用轻量型transformer变体DeLighT替代原始版本,并结合跨模态注意力机制,构建一套视频描述任务的编码器-解码器模型。本文使用该模型在ActivityNet Captions数据集上进行实验,验证了多模态融合模型的实际视频理解能力。实验结果表明,BLEU@3达到了 4.59,BLEU@4达到1.97,METEOR达到了 8.96,而参数量仅有30M,相比其他算法,参数量下降约50%。实验结果证明,使用本文体系的多模态特征提取网络和融合网络,能够实现面向智能设备的视频理解。
其他文献
现代社会飞速发展,对信息传输速度及传输容量也提出了更高的要求。全光网络以全光交换技术和密集波分复用技术为基础,顺应了当下大容量高速度通信传输系统的发展需求,受到越来越多研究者的重视。全光判决是全光交换中的重要环节,其应用范围主要集中在全光层的光交叉连接、路由选择、波长选择和自愈保护等方面。随着通信网络的快速发展,通信速度迅速提升,这就需要更快的全光判决速度。全光判决器采用光控光判决,具有高速、稳定
分布式光纤传感是一种利用光纤传输信息,可以在光纤沿线各个位置处进行分布式检测的传感技术。它具有耐高压、抗腐蚀、测量精度高等特点,目前被广泛应用于各种环境参量的检测。相干光时域反射计技术不仅能够对温度和应变进行测量,还能对扰动信号进行监测。但目前主流的分布式光纤传感器多数只能实现单一参量的监测,如果想要同时测量多个参量,则需要多个系统融合,成本非常高,因此多参量检测传感技术越来越被重视。针对上述的缺
实时人脸关键点检测技术在视频追踪、增强现实、人脸识别等领域具有广阔的应用前景,但是在实际应用部署中仍面临很多问题。基于APP的部署方式需要针对不同手机端系统进行适配,难以满足人脸关键点检测服务的跨平台需要,而Web+云计算的部署方式带来的网络延迟又难以满足人脸关键点检测的实时性需求。小程序作为5G时代边缘计算的重要平台之一,为人脸关键点检测技术提供了一种跨平台,普适化的部署解决方案。但是在小程序环
随着无线通信技术的发展以及无线通信在各种领域应用需求的快速增长,对于天线性能的需求也越来越复杂多样。各种通信方式并存的特点使得系统需要安装多种发射和接收天线,然而多天线的存在会导致系统空间的减少以及不同信号之间的互相干扰。同时外部环境也是在不断变化的,天线需要更好的与物体表面结合,因此可重构和柔性是未来天线发展的重要方向。相较于传统的固态材料,液态金属的性质使得其非常适合应用于可重构和柔性天线上的
目前,生物识别技术在人们日常生活中已经有着广泛的应用,如解锁与支付等,具体技术有指纹识别与人脸识别等。但是这两种生物识别技术存在着明显的弊端,只能在近距离或者触摸的情况下进行生物身份的识别。当人处在远距离且无法触摸的情况下,这两种技术将无法使用,步态识别可以完美的解决以上弊端。以往的步态识别研究工作主要是基于图像识别的,图像识别的弊端是只能在光线良好并且无遮挡的情况下才能使用。随着5G技术的不断发
随着信息化社会的迅速发展和“互联网+”思维的广泛传播,政务部门也越来越依托于信息通信以及互联网平台开展“互联网+政务服务”,政府部门开展政务服务的行为也逐渐转移到网上,因此传统的监督方式和效能监察已经无法对互联网上的政务服务行为进行有效的监管,其问题主要表现为难以量化各项监管指标、难以实时监控各项指标、难以对监管结果有效溯源、难以高效地进行监管等方面。为了解决以上问题,本论文通过设计和实现中国河南
对于大规模在线服务系统来说,为了维持高质量的使用体验和服务质量,保障在线系统的稳定性极其重要,这也正是运维工程师存在的价值。大规模在线服务系统往往具有数据量巨大、指标多维度以及实时性要求高三个特性。对于大规模在线服务系统,仅凭运维工程师人工监视或者简单依照规则的自动化运维系统,很难全面且迅速地发现故障的产生并定位到导致故障的真正根因集合。因此,智能运维(Artificial Intelligenc
随着可视化编程工具的出现,中小学的信息技术教育内容发生了改变,人们越来越关注对孩子们的编程能力培养,目前青少年开始学习编程的首选语言就是Scratch。学生在进行Scratch编程时需要为舞台选择合适的背景图,舞台背景图不仅能为角色的活动提供合适的环境,而且其风格可以直接表达作者的情感和个性。但是目前主流的Scratch平台上都没有设计与图像风格相关的功能,所有平台里的图像风格比较单一,一张图像仅
车辆编队技术通过将道路上车辆组织成以固定间距紧随的车队,在减少了风阻的同时保证了车辆行驶的安全,为减少能源消耗、提升道路安全与交通效率带来了贡献。基于V2X(Vehicle-to-Everything)和MEC(Mobile Edge Computing/Multi-access Edge Computing,移动边缘计算)的车云融合技术,为车辆编队提供了车辆与周边交通环境的通信能力,以及可用于编
随着地球上化石能源的日益短缺,能源问题逐渐得到人们的重视。能量传输的关键技术是能源问题的关键环节之一。微波无线传能在能量传输领域具有很广阔的实用价值。本论文研究了微波无线传能系统的发射天线。根据微带阵列天线理论和聚焦原理,设计了幅度激励天线和基于幅度激励天线设计了带相位补偿的幅度激励天线,还研究了平顶波束微带阵列天线。论文主要研究内容如下:1.切比雪夫幅度聚焦微带阵列天线研究设计。通过微带馈电网络