基于深度学习的视频文本描述研究及煤矿应用

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:a1234578
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频文本描述是一个具有挑战性的任务,它涵盖了计算机视觉和自然语言处理两个方面,其主要目标是将视觉内容转换为准确而简洁的文字描述。视频文本描述在很多领域都具有广阔应用前景,特别是在煤矿领域已经得到越来越多人的关注,把视频文本描述的技术运用到煤矿井下,降低了检索煤矿视频的难度和时间,对于煤矿井下监控视频智能化的研究具有重大意义。由于视频底层的视觉特征与高级语义之间存在着很大差异,本文通过结合视频的特征提取、视觉文本检测对基于深度学习的视频文本描述方法进行改进,主要的研究内容如下:(1)在以往的编码器-解码器的学习中,所有视频特征的长度都被编码成固定长度,随着输入的视频特征长度不断地增加,视频文本描述效果越来越差,而引入注意力机制可以有效地提升视频文本描述模型在编码器-解码器任务上的性能,使得编码器在进行视频处理时能够给予模型在视频的关键部分获得更高权重。为此,本文提出一种基于注意力3D残差网络的视频文本描述模型。首先在编码阶段,将注意力机制引入3D残差模块,通过一维通道注意力与二维空间注意力增强视频特征映射,降低无关目标与噪声的影响;其次,利用Glove模型对视频文本进行向量化,增强词与词之间的相关性;最后在解码阶段利用双层LSTM深度网络的时序性特征,输出表述视频高层语义的文本描述。本文在MSVD与MSR-VTT两个公共数据集进行实验,实验结果表明,该模型能够更加准确的利用自然语言描述视频高层语义信息。(2)针对多数的视频文本描述算法对视频内目标细节部分描述不充分,容易忽略视频潜在文本特征这一问题,提出了一种基于视觉文本和残差连接的视频本文描述方法。首先,利用BERT模型检测出视频中的视觉文本;其次,将这些视觉文本与第一层的GRU网络输出进行融合输入进第二层GRU网络中;最后,为了得到更紧密的视频与文本描述之间映射关系,在每层GRU构建了残差连接结构。实验结果表明,该模型能够对视频中的细节信息进行描述,优化了视频文本描述的质量。(3)将本文提出的视频文本描述技术运用到煤矿井下。首先对煤矿井下监控视频进行预处理,制作煤矿描述数据集,利用煤矿数据集对本文模型进行训练,其次煤矿井下监控视频往往带有事件发生的时间与地点,为了使视频描述更加具体,将视频提取的字幕引入GRU语言模型生成的文本描述中,生成煤矿监控视频的文本描述。最后由实验结果可知,本文提出的模型在煤矿描述数据集中有较好的结果。
其他文献
马克思、恩格斯创立人的发展理论,经历了从萌芽到形成再到发展的逐渐展开和深化的过程。在萌芽时期,他们开启了对人的哲学层面的思考,初步确立了人的彻底解放的目标。在形成时期,他们明确提出了人的发展概念,比较全面地阐述了人的发展含义,确立了人的发展价值取向和科学认识,使人的发展理论初步成型。在发展时期,他们将对人的发展的理解同对社会历史发展的认识有机地结合起来,进一步丰富了人的发展内涵,深化了对人的发展现
在基建现场通过智能视频监控实现人体连续动作识别对于保障工人安全有着重要意义。连续动作由多个动作组成,具有一定的复杂性,而已有的深度学习网络结构复杂度高、准确率低,用于人体连续动作识别还有一定缺陷。因此,本文对连续动作识别展开研究,从单一动作的角度出发,设计了一种具有注意力机制的G-ResNet网络模型,然后结合滑动窗口完成连续动作识别。针对现有模型不能更好的提取视频时空特征的问题,本文提出基于G-
石英坩埚作为单晶硅生产设备,在集成电路及太阳能光伏行业中发挥着极为重要的作用。当石英坩埚透明层中的微小气泡数量过多时,在长时间的高温真空环境中易发生破裂。气泡中的杂质会破坏硅晶结构,而影响硅锭的纯度。本文以石英坩埚透明层气泡为研究对象,对坩埚气泡图像特征参数做计量分析,为坩埚质量检测环节提供技术支持。针对坩埚气泡轮廓与背景对比度较低的问题,对改进的双域分解算法进行修正,重新定义滤波模板大小并采用软
煤矿安全工作事关职工生命健康、家庭幸福安康和社会和谐稳定。随着开采技术和管理水平的提高,煤矿安全水平有了大幅提升。但近两年来,煤矿事故发生率有所反弹,安全形势依然严峻。人的因素是引起煤矿事故的主要原因,人是井下安全生产的核心,而不良的生理状态易导致矿工在井下产生不安全行为。因此,研究矿工入井前生理状态快速评价方法,对矿工生理状态进行岗前测评,确保入井矿工具有良好的生理状态,对减少井下人因事故具有重
乌东煤矿北采区主采煤层为43#煤层和45#煤层,两煤层倾角均为43°~51°,属于急倾斜煤层,采用水平分段综放开采的采煤方法。近年来乌东煤矿冲击地压日益凸显,给矿井安全生产带来了隐患。乌东煤矿冲击地压是急倾斜煤层特殊开采条件下的动力灾害。因此,对其致灾机理与防治方法的研究具有重要意义。论文以乌东煤矿急倾斜煤层综放面冲击地压与防治研究为背景,综合运用工程调研、岩石力学实验、物理相似模拟、数值模拟和工
近年来,各种先进的硬件平台对供电电源的质量要求越来越高。为了提高电源的容量和可靠性,提出了一种带串并联管理的组合开关电源。该电源结合了 ISOP(输入串联输出并联)与IPOP(输入并联输出并联)的组合方式,由四个反激变换器模块通过串并混合连接的方式组成。该方案有效减小了功率器件的电应力,同时具有模块功率均衡、故障诊断和容错控制功能。功率均衡控制策略具体实施方式为系统中ISOP部分采用同占空比控制。
三通管是管网系统中一种常用的管道连接件,主要用于改变管内气流流动方向及各出口处流量,被广泛应用在航空航天、石油化工等行业中。当管内气流流经三通管分叉处时,由于流道截面发生较大变化,管内流场发生变化,有可能加剧气流湍流强度,严重时发生流动分离等非定常流动现象,导致气流脉动压力增大,在管内空腔诱发产生剧烈噪声。同时,当气流的脉动压力与三通管结构模态频率接近时,容易引起管道共振,严重时将导致三通管管道破
神东矿区是我国现代化的煤炭生产基地之一,也是我国典型的浅埋近距离煤层群开采矿区,主要以下行开采为主,在工作面末采回撤阶段的切顶压架事故时有发生。因此,本文以韩家湾煤矿3304综采工作面为工程背景,采取物理相似模拟、数值模拟、理论分析及现场实测等多种研究手段,充分分析了该工作面在末采贯通阶段回撤通道基本顶的垮落特征和围岩变形失稳的特征,并提出合理的围岩控制技术方案。现场调研表明,回撤通道围岩的变形量
随着智能机器人技术的不断进步以及煤炭工业生产力的不断提升,煤矿开采向着无人化、智能化方向发展。其中,自主定位、实时建图能力是煤矿井下移动机器人智能化程度评价的重要指标。基于视觉传感器的定位建图技术由于其成本低、信息丰富的优点,逐渐成为了目前的研究热点,视觉实时定位与建图(Simultaneous Localization and Mapping,SLAM)技术是其中的关键。相比单目和双目相机,深度
随着高层及超高层建筑的不断发展,双钢板-混凝土组合剪力墙已在工程中得到广泛使用。为提高短肢剪力墙的抗震性能,采用双钢板-混凝土组合短肢剪力墙是一种有效途径。组合短肢剪力墙的混凝土处于核心位置,钢板位于混凝土两侧对其进行约束,钢板和混凝土通过栓钉等连接实现两者协同工作。组合短肢剪力墙具有抗侧刚度好、自重轻、节省空间等优点,常见截面形式有一字形、T形和L形。L形截面剪力墙常用于建筑物拐角处,鉴于目前国