基于视觉注意力机制的视频显著性检测方法

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:HW_CBSC_CCM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类视觉系统具有强大的信息处理能力,人类可以在很短的时间内找到他们感兴趣的领域,即显著性区域。通过计算机视觉相关算法提取图像或视频中显著区域的技术即为显著性检测技术。近年来随着技术的发展以及对信息处理速度的要求,使得显著性检测技术受到关注并取得了很大进步。传统的显著物体检测方法致力于检测显著物体所在的区域。但是当人们集中精力时,通常只关注物体的一部分,而不是整个目标。因此,通过检测眼动情况来检测注视位置可以更好地模拟注意力转移。为了更好地模拟人类的视觉注意力机制,本文提出了一个基于深度神经网络的模型来预测注意力转移,该模型使用时空特征分别提取静态显著性图和动态注意力图,利用全卷积网络将它们融合到最终的显著性图中,以预测动态场景下的视觉注意力转移。在本文中,针对注意力转移的任务,模型结合了两种视觉注意力机制,包括自发眼动情况下的显著性检测和有指令驱动情况下的注意力转移预测,可以同时考虑图像数据信息对视觉注意力的影响,以及认知因素和任务因素对注意力转移的影响。此外,本文还提出了一种新的眼动数据处理算法,使用眼动追踪系统来标记眼动数据集。本文主要工作如下:(1)为了更好地模拟视觉注意力转移,本文设计眼动追踪系统进行实验,标注了一个动态场景视频眼动追踪数据集,并提出结合概率分布算法和模糊C均值聚类算法的眼动数据处理算法,使眼动数据更加精确,为后续的模型构建提供帮助。(2)提出了基于多尺度时空特征的视频显著性检测方法,用于预测动态场景下的注意力转移。该模型运用空间金字塔池化模型进行时空特征的提取,分别提取静态显著性图和动态注意力图,利用全卷积网络将它们融合到最终的注视图中,以预测注意力转移。本文提出的方法综合考虑了在自发的眼动和有任务驱动两种注视情况。
其他文献
加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题,定理证明作为人工智能领域的核心研究课题在一定程度上影响着人工智能技术的发展。随着一些交互式定理证明辅助工具Coq、Isabelle、HOLLight等的诞生,定理机器证明的研究有了更进一步的发展。Coq是国际上广泛使用的一个交互式定理证明工具,它基于归纳构造演算,有着强大的数学模型和良好的扩展性,更为重要的是,基于C
近年来,深度学习作为一种新兴的信息技术广泛应用于各个领域。在某种确定的深度学习模型下,神经元连接处的参数大小决定了模型优劣,为了提高模型的准确性,在训练过程中需要对参数取值进行优化,其中涉及到的优化问题主要是对经验风险函数进行最小化求解。随着数据规模的不断扩大,传统的一阶优化算法已经不能有效解决经验风险最小化问题。随机算法是指在迭代的过程中随机选择一个或部分样本的损失函数梯度近似损失函数全梯度,以
在癌症发病率和死亡率逐年攀升的今天,人们对健康问题越发关注,对于提升肿瘤检测及时性和准确率的希望也越发迫切。随着现代计算机技术的迅速发展,卷积神经网络成为国内外专家学者的研究热点,将其的研究成果应用于医疗领域,帮助医生对肿瘤做出高效而准确的诊断,这具有着重要的社会意义和实用价值。由于不同身体部位和不同检查方式中的肿瘤具有不同的形态,本文针对核磁共振成像的脑胶质瘤进行了分割模型的研究,并搭建Web系
大数据时代下各行各业的数据呈现爆炸式增长,变得越来越庞大和复杂,尤其在土地开发产业链中,由于从土地到楼盘这一产业链上的时间间隔较长,各类信息度量标准不统一,空间位置信息也在不断地更新等因素,造成土地开发产业链中各类数据比较孤立且冗余度高,难以聚合和共享,无法发挥数据隐含的价值。因此,为了能合理和高效地利用这些数据,对设计一套集数据获取、数据管理及关联分析为一体的应用系统的需求越来越迫切。为了解决土
目前,我国大多数公司的经营模式还是维持在从上而下的多层级的管理模式,而这种方式很容易导致员工失去工作积极性,整个管理模式非常僵化,上层领导对于业务了解不够透彻,决策下行困难,基层员工缺乏激励,工作完成不积极,导致整个业务流运转缓慢,效率低下,公司竞争力弱。可以说,优化管理模式是很多公司亟待解决的问题。本文通过对W公司的阿米巴经营模式组织变革为例,通过文献研究法、案例研究法、访谈法和标杆分析法等方法
随着物联网的发展,物联网技术已经应用到社会的各个领域。物联网平台作为物联网技术的基础设施,可以实现设备、数据、信息的交互,完成统一的管理和监控。物联网平台的高效运营、安全维护和性能监控十分重要。日志是各种设备、系统平台及应用程序等运行时产生的大量事件记录,可以依据日志快速找出问题所在。因此日志分析对物联网平台的运营和维护十分关键。本文通过对物联网平台日志的解决方案进行研究,设计并实现了一个物联网平
图嵌入是将图中的节点用低维、连续、稠密、具有相关性的向量表示,以便于后续的语义处理和推理。可以基于代数或者随机游走的方法对图进行学习实现图嵌入。近两年随着深度学习技术的发展,将深度学习引入图嵌入可以高效准确地获得嵌入向量。通过深度学习图嵌入方法,研究人员对节点和边同属一种类型的同构图、节点类型不同和节点间边类型不同的异构图进行了研究。但现实世界中还存在大量两个节点间存在多种不同类型关系的多路复用异
随着移动互联网、大数据、云计算、网络游戏应用等技术的发展,人们对高数据速率以及大容量光传输系统的需求不断增加,提升频谱效率从而提高系统容量成为解决光纤通信系统频谱资源受限的可行技术之一。超奈奎斯特非正交频分复用(Faster Than Nyquist Non-Orthogonal Frequency Division Multiplexing,FTN-NOFDM)技术打破传统正交频分复用技术的正交
在诸如银行、移动营业厅等实际应用场景下,借助人脸识别系统,可以快速完成对客户的实名认证,并自动办理相关业务。然而,客户在实名认证的过程中,需上传自己的人像照片或实时拍摄人像照片,然后与身份证照片进行核对。此时,若客户提供的人像照片的质量很差,会严重影响人脸识别算法的性能,从而影响自主办理业务的效率。因此,对人像照片的质量审核显得尤为重要。基于此,本文针对影响人脸图像质量的多个因素进行分析,设计并实
丢包区分一直是TCP拥塞控制的研究热点和棘手问题。由于LEO卫星网络的高动态性使得数据包丢失概率急剧增加。若无法准确判别数据包丢失类型,采用不恰当的窗口调整策略,将严重影响数据包传输速率,无法高效利用网络带宽。此外,相比于地面网络,这种高动态性导致的数据流概念漂移问题更加严重,极大的影响丢包区分模型的精度。本文基于TCP拥塞控制机制,通过构建概念漂移检测模型解决样本分布变化对丢包区分模型的影响,提