【摘 要】
:
随着监控/摄像头覆盖率的不断提升,人们可以越来越方便快捷的获得大量的视频信息,比如课堂视频,小区门岗监控等。传统的依靠人工进行的监察、判断手段缺点越来越明显:观看视频效率低、速度慢;人的注意力容易不集中;人工手段成本过高等。而通过人工智能技术的动作识别算法在复杂的环境下又会出现识别率过低,识别结果不可信的问题。本文使用深度学习技术进行视频的自动识别分析。通过对视频中人物的关节点识别+动作识别来获得
论文部分内容阅读
随着监控/摄像头覆盖率的不断提升,人们可以越来越方便快捷的获得大量的视频信息,比如课堂视频,小区门岗监控等。传统的依靠人工进行的监察、判断手段缺点越来越明显:观看视频效率低、速度慢;人的注意力容易不集中;人工手段成本过高等。而通过人工智能技术的动作识别算法在复杂的环境下又会出现识别率过低,识别结果不可信的问题。本文使用深度学习技术进行视频的自动识别分析。通过对视频中人物的关节点识别+动作识别来获得视频中人物的准确动作,通过姿态关联的手段联系同一个人的动作信息和身份信息。本文方法提高了复杂环境下的多人识别效率和准确率,并且提出了课堂等场景的评价指标,为智慧课堂的建设,课程的自动评教提供了理论基础。本文首先进行场景建模,总结了常见复杂视频场景的特点,结合课题实际需要选择了有代表性的课堂场景和教学楼大厅场景作为研究范围。根据具体场景中的常见动作进行动作分类的设置和人物关节点模型的筛取,根据场景的具体背景选择合适的评价指标。然后对课堂视频进行采样,在不影响识别效果的情况下加快识别效率。使用Open Pose对视频进行关节点分析,得到场景关节点模型的坐标信息流。然后将得到的多人关节信息流通过帧间姿态关联的方式拆分成单人关节点信息流并进行连续性检查,再按照不同的基线方法进行预处理,送入LSTM网络进行单人的动作识别,得到单人的动作流。并对每个单人姿态进行人脸图像的截取,使用MTCNN+CNN网络对截取到的图片进行人脸识别分析,得到个体的身份信息;然后汇总单人的动作流得到群体的动作数据,并进行场景评价指标的计算。最后实现了一个可视化系统演示算法的工作。由于多人视频必不可少会出现的遮挡会严重影响动作识别工作,需要建立机制提升对遮挡的鲁棒性。本文采用随机添加遮挡的方式,提升数据集中的遮挡率,扩充数据集的规模,并且对短时间出现的遮挡进行插值,降低遮挡对识别效果的影响。
其他文献
城镇化与工业化进程在推进我国经济快速发展的同时,亦对自然环境造成了较为突出的伤害,其中,较为突出的一点便是带来了当前的较为严重的各类水污染问题。从2007年开始,我国政府大幅度提高对于环保行业的投入,由此引发了环保行业的爆炸式发展。伴随行业的高速发展,进入这一领域的企业也越来越多,尤其是近年来建筑类国企、央企以及国外资本的强势介入,正对我国民营环保企业的生存空间构成了强烈挑战。为此,如何为企业构建
随着信息化时代的来临,军事文本信息出现“过载”的问题,这为情报分析人员增加了沉重的负担。利用自然语言处理中的信息抽取技术智能地提取其中的有价值信息并呈现出来,是一种备受瞩目的解决方案。而命名实体识别技术作为信息抽取领域中的基石,其重要性不言而喻。本文立足于军事命名实体识别任务,对基于预训练语言模型的深度学习方法进行研究。因为军事领域相关的语料集匮乏,出于研究需要,本文首先以军事新闻文本为数据源构建
随着微纳米加工技术、纳米超材料的发展以及超精密结构的日益复杂,对于微小空间结构三维尺度测量的需求日益迫切。共焦显微技术具有独特的三维层析能力、高分辨力、对被测样品无特殊要求、非接触测量不会损伤样品表面等优点,可广泛应用于微结构三维形貌测量方面。目前外差共焦仍然是提升共焦显微系统轴向分辨力的主要手段之一,但是由于该系统采用硬针孔结合光电探测器的方式存在针孔离焦位置调节困难、容易堵塞等诸多问题,致使系
随着互联网上信息量的快速增长,人们对信息检索效率的要求越来越高。如何从互联网上高效的获取信息成为一个重要的问题。搜索引擎是检索信息和收集互联网数据最为有效的工具,但是搜索引擎返回的结果仍然包含着诸多的干扰信息和冗余信息,需要进行进一步的分析和归纳才能掌握搜索引擎返回的重点。而面向问题的文本摘要可以解决这个问题,面向问题的文本摘要旨在基于给定的问题从文档中返回一段含有文档中重要信息的简短的文字,配合
光场显微技术作为一种无需扫描、可伸缩的方法,可以以高分辨率观察跨越多个时空尺度的各种解剖和功能信息,从而实现从单细胞标本到哺乳动物大脑的高速、体积成像,但重建伪影的出现和复杂的计算成本大大限制了光场显微技术的广泛应用。因此研究人员通过两个方面对光场显微系统不断进行优化和改进。一方面通过调整微透镜阵列的相对位置,得到了较高分辨率的光场显微镜,并有效避免了重建伪影;另一方面,通过将微型显微镜平台和光场
近年来,我国在电力系统建设上的投入不断增加,电网覆盖范围也越来越广,随之而来的是输电线路舞动事故发生频率逐年攀升。舞动已经成为造成电路安全隐患的主要原因之一,并成为各国研究焦点问题。使用输电线路舞动监测技术可以得到输电线舞动的关键参数,这一点对于研究舞动产生机理以及分析影响舞动因素就尤为重要。输电线路舞动监测技术有诸多解决方案,其中,基于视频采集的监测技术凭借其非接触测量特性,可以较大程度地省却安
为了提升高功率激光装置中大口径光学元件的初始损伤检测与跟踪能力,针对光学元件损伤暗场图像的纹理信息少、关键信号微弱的问题,提出基于模型集成的暗场图像超分辨率重建方法,对早期发现光学元件损伤具有重要意义。本文主要研究内容如下:(1)对图像超分辨率重建方法进行系统综述,分析了从传统的基于插值法到目前的基于深度学习法的图像超分辨率重建技术原理和特点;(2)提出一种基于模型集成的暗场图像超分辨率重建方法,
由于“大跃进”和农村人民公社化运动的失误,加上1959—1961年连续三年自然灾害和苏联政府背信弃义地撕毁合同,使我国国民经济陷入困境,国家和人民遭遇重大损失,农村生产力遭到破坏,农业产值特别是粮食产量连年减产,人民口粮出现供应紧张的状况,部分地区出现严重饥荒。粮食成为影响全国人民群众最突出的问题。1960年代初的农业困难引起了整个国民经济困难,党中央为了战胜困难,走出困境,1960年8月10日中
基于知识库的问答系统能够针对用户提出的自然语言问题直接作答,相比于借助形式化查询语句获取知识库内容的方式,问答系统更加智能且高效。依托于大规模知识库的问答系统通常采用流水线工作模式,在这种模式下,系统利用自然语言处理的相关技术确定问题查询的主题实体,并在知识库中抽取主题实体相关的三元组,从中找到与问题相关度最高的组合用以抽取问题的答案。知识库中相互关联的三元组表现为小规模的图结构,这种结构被称为查
随着近几年来自然语言处理技术的迅猛发展,人工智能已经渗透到我们生活的方方面面,各种各样的人工智能产品出现在市场上,人们也逐渐对计算机寄予了越来越高的期望,希望计算机能够帮助人们完成更多更复杂的工作。得益于深度学习和大数据的发展,一些任务导向的对话语音助手也渐渐在人们的日常生活中出现。这些对话语音助手,不仅可以陪用户闲聊,还可以智能化地解决人们很多日常需求,比如听音乐、打电话、订车票等。其背后的主要