【摘 要】
:
视频标注涉及到计算机视觉和自然语言处理两个领域,是一个非常有挑战性的任务。同时,视频标注也有非常广泛的实际应用前景。现阶段,完全用人工的方式进行视频标注无疑可以获
论文部分内容阅读
视频标注涉及到计算机视觉和自然语言处理两个领域,是一个非常有挑战性的任务。同时,视频标注也有非常广泛的实际应用前景。现阶段,完全用人工的方式进行视频标注无疑可以获得非常精确的结果,但是随着人力成本的迅速增长,社会对自动视频标注方法的需求正变得越来越紧迫。在近年来出现的视频标注模型中,许多都采用了自然语言处理领域广泛使用的编解码框架,编码端使用视频特征序列生成视频中间向量表示,然后在解码端解码中间向量生成文字序列描述,以序列到序列的方式处理输入输出。编解码框架的使用在很大程度上促进了视频标注研究的发展,但是现行的视频标注模型仍然有一些不足的地方:首先,许多标注模型缺乏聚焦关键信息的能力;其次,标注模型训练阶段和测试阶段输入数据不同,导致模型存在解码误差传递问题;最后,标注模型在训练过程中优化指标是单词级别的交叉熵损失,和元组级别的测试指标不一致。为了解决上述问题,本文提出了一个基于多头注意力的视频标注模型。标注模型在传统的编解码网络上引入多头注意力机制,并改进模型训练方法与模型优化指标,主要研究工作如下:1.引入多头注意力机制使视频标注模型获得焦距关键信息的能力。多头注意力机制可以使得模型在解码生成每一个单词时,解码单元能够越过解码端获取额外编码端信息,并且根据相关性为每一步的编码信息分配不同的权重。2.提出一种分步混合训练法解决解码误差传递问题。将视频标注模型训练过程分为几个阶段,训练时使用噪声数据,并逐渐增加使用预测语句进行训练的概率,使训练数据向测试数据接近。3.引入增强学习方法解决视频标注模型训练目标和评价指标不一致的问题。视频标注模型原本的优化目标是使生成目标序列的概率和最大,通过使用增强学习方法使模型可以对评价指标得分和目标序列概率和进行联合训练。为了验证视频标注模型的有效性,本文在MSVD数据集和MSR-VTT数据集上进行了实验。实验结果显示,本文提出的模型有效的提升了视频标注的效果。
其他文献
人脸识别是多年来经过研究学者的不断探索和创新,快速发展起来的生物识别技术,因为采集人脸样本的过程具有不接触性,友好不侵犯性的特点,能以最自然、最直接的方式获取,人脸
数据伴随着人们的生产生活不断涌现,数据量在不断升级,产生的领域也越来越广,且维度也越来越高,这对分析这些数据的有效方法提出了前所未有的挑战,由此产生了“维数诅咒”的概念,特征选择是解决维数问题的有效方法,特征选择开始展现出越来越重要的作用是在上世纪90年代后,各种特征选择方法开始涌现,许多新的方法、新的思路层出不穷,对数据降维技术的发展起到了关键的作用。由Fisher判别演化的Fisher Sco
荣誉制度是弗吉尼亚大学规范学生学术行为、促进大学内部人员相互信任的一种契约,是学生对学校承诺自身的信用制度,反映了学生自治、自主管理的传统,涉及到校园生活的方方面面,其核心思想是:别人对你完全信任,你对自己的行为完全负责。荣誉制度是弗吉尼亚大学最为重要的一项制度,也被视为弗吉尼亚大学建校的根基,已成为美国高校的特色制度之一。研究弗吉尼亚大学荣誉制度,揭示其特色,可以为高校更好地承担起立德树人的使命
记忆的所有权效应是探索年幼儿童自我的一种有效方法。自我参照效应(self-reference effect,SRE)也是探索自我非常重要的方法和手段。大多数发展性SRE研究中应用的标准范式要求儿童能够识别与自我或他人相关的抽象性格特征。鉴于这种发展模式,我们应该利用具体而非抽象的加工任务,提供一种更合适的方法来探索儿童的自我发展。与自我参照效应相关联的另一个重要概念是自我所有权效应。所有权范式要求
随着移动芯片以及诸多功耗限制型集成电路应用的快速发展,如何减少芯片的功耗成为超大规模集成电路(Very Large Scale Integration Circuit,VLSI)设计的重要挑战。其中,静态随机存储器(Static Random Access Memory,SRAM)因其运算性能方面的优越性而被广泛应用于各种处理器的缓存和片上系统(System On Chip,SOC)中的嵌入式存储
当今移动机器人产业迅猛发展,已经深入到社会各个角落,而如何解决移动机器人自主控制是这一领域的热门问题,很多学者认为同步定位与地图构建(SLAM,Simultaneous Localization
近年来,科技发展日新月异,城市化进程不断加快,人们对定位的需求也越来越大,尤其体现在商业推送,物流管理,搜索营救等方面。在室外可以通过全球导航定位系统(Global Navigati
离线签名一直作为传统身份认证方式被广泛使用。对于签名的真伪性鉴别,目前主要还是采取人工鉴定的办法,效率低下。利用计算机实现离线签名的真伪鉴别具有广泛的应用需求和理论研究意义。LBP特征能够反映签名笔迹的纹理特征,但缺乏对签名轮廓的几何特性的描述。本文提出基于轮廓处局部二值模式(LBPC)特征和局部轮廓模式共生(LCPC)特征的离线签名鉴别方法,完成的主要工作内容如下:(1)为提升签名图像LBP特征
铝暴露途径十分广泛,暴露剂量不可预知,因此铝元素对人体暴露及随之产生的毒性作用难以避免。利用螯合剂和天然抗氧化剂拮抗铝的毒性已成为一种现代的方法。本研究从动物和细胞水平探究绿原酸(Chlorogenic acid,CGA,5-O-咖啡酰奎宁酸)对铝毒性的保护作用及机制。首先在动物水平上探究绿原酸对急性铝暴露小鼠肝脏和血液毒性的预防和保护作用。将8周龄雄性昆明小鼠在急性铝暴露(单次腹腔注射25 mg
自然场景下的文本检测是自然场景图像信息提取的基础,在车牌识别、实时翻译、图像检索等领域具有广泛的应用价值及研究意义。基于连通区域的方法是自然场景文本检测中最为常见的方法,其中最大稳定极值区域(Maximally Stable Extremal Regions,MSER)算法和颜色聚类算法都有着广泛的应用。针对传统MSER算法及传统颜色聚类算法的局限性,本文提出基于图像增强MSER与改进颜色聚类的自