【摘 要】
:
随着科技水平的进步,视频数据在人们的日常生活中占据着越来越重要的地位。视频中存在着大量的文字信息,对其进行提取有助于视频内容的审核以及视频内容归纳分类。而视频文字检测识别技术能很好的满足对于大量视频内容提取与审核等方面的需求。相比于人工,借助视频文字检测识别技术进行视频内容提取与审核等工作,能够大幅提高效率并降低人力成本。本文基于深度学习技术,对视频文字检测算法和视频文字识别算法进行了研究,设计实
论文部分内容阅读
随着科技水平的进步,视频数据在人们的日常生活中占据着越来越重要的地位。视频中存在着大量的文字信息,对其进行提取有助于视频内容的审核以及视频内容归纳分类。而视频文字检测识别技术能很好的满足对于大量视频内容提取与审核等方面的需求。相比于人工,借助视频文字检测识别技术进行视频内容提取与审核等工作,能够大幅提高效率并降低人力成本。本文基于深度学习技术,对视频文字检测算法和视频文字识别算法进行了研究,设计实现了视频文字检测识别系统。本文的主要工作如下:(1)采集实际应用场景中的视频数据,选取部分进行文本行位置和文字内容的标注,得到200张图片的文本行位置标注和2852个文本行实例的文字内容标签。(2)为了解决经典的文字检测算法CTPN对视频文字的检测精度较低的问题,对其进行网络结构、损失函数及训练策略的改进,将CTPN原有的基于VGG16的特征提取网络替换为带有残差结构的特征提取网络。并且在每个残差块中添加了通道注意力机制和空间注意力机制,通过引入注意力机制,对重要特征赋予更高的权重,使其对检测的结果有着更大的影响。使用focal loss损失函数,配合困难负例挖掘策略对模型进行训练,提高文字检测的准确率、召回率。(3)为了解决经典的文字识别算法CRNN对视频文字的识别精度较低的问题,对其进行网络结构的改进,将CRNN原有的基于VGG16的特征提取网络替换为带有残差结构的特征提取网络,并在每个残差块中添加了通道注意力机制和空间注意力机制。由于对于复杂的深度神经网络,训练集越大,神经网络的精度往往越高,因此本研究使用代码将语料数据与背景图片合成,生成大规模中文识别数据集。使用该数据集对模型进行训练,藉由语料数据使得网络结构中的双向LSTM层学习到语义信息,增强识别结果的前后关联性,降低识别错误率。(4)为了减少文字检测结果不准确导致识别结果同样不准确的问题出现,本文提出了一种端到端的文字检测与识别算法。通过共享特征提取网络的参数和提取得到的特征图,减少分别进行检测与识别时重复提取图像特征的冗余参数和计算。并且由于识别时对特征图进行了复用,由于卷积操作时对每个像素周围的信息都进行了提取,因此特征图中每个点都包含了对应于原图像的某个区域的信息,即特征图相比原图像具有相对较大的感受野,若检测分支未能将完整的文本行检出,识别分支利用检测分支的检测结果对特征图部分区域进行裁剪时,可能将未被检出文字区域的特征包含在内,使得识别分支有一定概率能够将文本行完整地识别出来。(5)基于Py Qt5设计并实现了视频文字检测识别系统,通过调用两阶段文字检测识别模型或端到端文字检测识别模型对输入的视频进行文本检测与识别,辅以结果复用算法对检测识别结果进行选取和复用,提高系统效率,最后将检测与识别的结果以文本和图像的形式保存在本地磁盘中。本论文设计实现的视频文字检测识别系统,能够高效地对输入视频进行文字检测与识别,检测识别的效果较好,应用于视频内容提取、审核等工作中能够有效降低人力成本,保证视频中含有的文字内容合法合规,具有较高的实际应用价值。
其他文献
磁共振成像(Magnetic Resonance Imaging,MRI)技术自1973年成功显示图像以来得到了迅速发展,已成为最有价值和应用最广泛的诊断成像方式之一。核磁共振系统对于接收线圈的信噪比具有较高的要求,高温超导技术对于高灵敏度的接收核磁共振模拟通路的研制具有重大意义。本文以利用高温超导薄膜材料研制了在1.5T磁场中、63.5MHz的频段研制了一款高温超导核磁共振接收模拟通路,其结构主
深度学习技术的飞速发展,催生出了一系列诸如计算机视觉,自然语言处理,强化学习之类的实际应用场景及方向,同时在安防监控领域也借助深度学习的发展迎来了技术手段上的变革。但是当前应用于安防监控领域的深度学习算法大多只停留在实验室阶段,虽然针对常用的数据集,当前的算法都能取得一个较好的精度,但在真实场景下,算法的精度和实时性能都不能达到实际应用的要求,所以急需一套智能化人体行为检测系统去解决当前真实场景下
字符识别是受到学术界和工业界重视的技术,需要根据针对性的场景设定和模型设计来解决相关实际问题。芯片字符识别作为字符识别的一种特殊场景,可以解决工业缺陷检测、自动化配装芯片等广泛性的工业问题。早期芯片字符识别方法,例如模板匹配等,只能在固定字体和固定场景发挥效果,但近年来随着深度学习算法的扩展和显卡浮点性能的增加,深度学习模型能够识别更多相似字体和更多场景的芯片,但深度学习模型的高精度基本建立在大量
移动边缘计算(Mobile Edge Computation,MEC)通过将计算资源部署到网络边缘,在地理上缩短了与用户的距离,可以就近处理用户的请求,避免了漫长的网络传输,从而提高服务的响应速度。由于边缘节点部署在网络边缘,单个节点的覆盖范围相对有限,因此用户的移动就有可能导致用户离开当前节点的覆盖范围而进入另外一个节点的覆盖范围。当用户从一个节点的覆盖范围进入另外一个节点的覆盖范围时,为了保证
本文以舰船、飞机等大型复杂装备电磁干扰现场检测为背景,把现场检测中的电磁干扰信号分类识别作为研究课题。针对大型装备面临的电磁干扰现场检测与故障模块查找问题,设计了一套EMI信号分类识别系统,构建大型装备电磁干扰现场检测案例库,进行EMI信号采集与特征分析、故障模块定位。首先,介绍了该系统应用场景、技术指标和软硬件构成,对系统中涉及的虚拟暗室、特征提取、模板匹配等相关技术进行了分析。其次,针对系统中
基于参量阵原理的屏幕定向扬声器是一种能够同时呈现画面和产生高度指向性可听声的新型屏幕扬声器,它利用超声波在介质中自解调产生定向可听声。由于介质的自解调过程是非线性的,受温度、湿度、信号处理算法和屏幕定向扬声器本身特性等多种因素的影响,导致屏幕定向扬声器解调出的可听声存在失真,对设备的音质有较大影响,因此本论文主要围绕屏幕定向扬声器的谐波失真进行研究,为便携式设备的屏幕定向扬声器实现高保真音质提供一
随着人机对话技术的不断发展,各种各样的智能对话系统层出不穷,如:领域问答系统、闲聊机器人、终端导航机器人等智能产品,很大程度上方便了人们的日常生活。在各种类型的对话系统中,任务型对话系统是一个重要分支,主要通过多轮交互解决用户在某个领域遇到的问题,提高业务办理效率,减少人工参与。本文针对金融领域任务型对话系统的用户意图识别进行研究,包含领域分词优化、对话意图识别以及融合意图识别的智能对话系统的设计
矩阵积和式是一种常用的矩阵不变量,在组合计数、统计检验、无线通讯、统计物理、分子化学等领域有重要的应用。积和式的定义与行列式相似,但是它的计算复杂性远远高于行列式。英国理论计算机科学家Valiant在1979年证明积和式计算是组合计数中的#P完全问题,即其难度不低于组合优化中的NP完全问题。迄今为止,对一般矩阵最为有效的积和式精确算法是Ryser基于容斥原理所建立,其计算复杂性为O(n2n-1)。
随着互联网时代的到来与发展,为大数据、云计算、人工智能等新兴技术提供了肥沃的土壤,同时也为各行各业带来了新的变革与推动。教育作为民族振兴、社会进步的基石,一直是我国优先、重点发展的行业。长期以来,我国教育面临的突出矛盾是人们对高质量个性化教育服务的迫切需求与优质教育资源供给的严重不足,针对教育资源供给侧的创新和个性化教育服务新模式的探索是当前教育改革与发展所面临的重大课题。本文搭建支持矩阵自动推理
语义匹配技术备受关注,成为了当前自然语言处理技术应用领域热点话题之一,在问答系统以及信息检索等领域拥有着广泛的应用场景。目前,最热门的语义匹配模型为基于BERT的微调模型,但是大多数基于BERT模型的语义匹配技术由于采用统一注意力机制,对于句式复杂的文本语义信息抽取不够充分,导致对句子语义的理解存在偏差;同时,BERT模型规模庞大,计算量着实惊人,仅仅单个样本计算一次的开销动辄上百毫秒,在严格的延