基于深度学习的视频中文字幕检测技术研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:peng1589955
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代的今天,面对海量的视频图像资料,我们很难快速高效地获取其中的信息。而视频中的字幕往往具有极强的语义信息,能够有效地帮助人们对视频内容进行理解和分析,对海量视频数据进行快速的索引和分类。本文旨在利用深度学习技术对视频图像中的字幕文本进行高速且准确的检测,从而高效快捷地实现视频数据内容信息的获取,辅助从业人员进行海量视频数据的检索分类工作。本文主要研究基于深度学习技术的视频字幕图像检测方法,包括字幕文本定位和字幕文本识别两大部分。在充分调研文本检测相关技术的基础上,完成了视频字幕检测系统的软硬件环境搭建,视频字幕数据集的建立,视频字幕检测算法的研究,以及模型、算法的改进与优化。首先,建立了相应的视频字幕数据集,字符样本包含常用汉字6763类、英文字符26类、数字10类等,充分考虑了样本的多样性、均衡性和泛化能力。之后,针对视频字幕文本检测的具体场景,选取Faster RCNN检测框架,使用CNN进行图像特征提取,引入先验损失函数、锚框抖动等方法提高了精度和召回率。最后,完成了整体系统的串联与搭建,从视频读取到字幕帧截取,再到字幕文本行定位及文本内容检测,实现了端到端的从视频输入到文本字符串输出过程。本文设计并实现了一个兼顾速度与精度的视频字幕检测系统,能够实现对视频字幕文本的实时定位与识别。最终文本检测精度和召回率达到了 99.5%,文本识别top-1准确率为97.5%,整体检测速度达到45fps。
其他文献
中日两国都是单一制国家,虽然日本实行地方自治,但是中央政府对地方财政控制力量较强.我国政治体制虽然不同于日本,但在经济上对地方进行分权.因此,中日两国在财政管理方面具
目的通过克隆技术获得参与檀香挥发油形成的萜烯合成酶基因。方法利用CTAB-LiCl法提取檀香已结香心材总RNA,采用RT-PCR技术克隆萜烯合成酶基因。结果克隆获得了一个檀香萜烯
传媒业的主要服务产品是信息,它在信息时代面临的竞争日益激烈,而人才竞争成为广播电视媒体能否继续生存和发展的决定性因素。本文就对加强广播电视台人力资源管理的重要性及
阐述了道路绿化与道路交通之间的关系。介绍了道路绿化的交通功能设计;安全性设计(安全视距,隔离设计);空间细节设计(道路绿化比例和协调设计)。论述了道路绿化设计时需要考
褐煤资源作为煤炭资源中的一个庞大分支种类煤炭种类,其在我国现有的存储数量为一千多亿吨,为我国总体煤炭存储数量的百分之二十左右。而褐煤资源的开发、加工应用技术也日渐
目的结合健康信念模式的理论框架,制定主动脉夹层患者的健康教育分阶段干预方案,对主动脉夹层患者开展系统化,个体化的健康教育。探讨基于健康信念模式为框架的护理干预对主
<正>糖尿病已成为严重威胁人类健康的主要疾病之一,患病人数逐年增加。由糖尿病并发的大血管病变是本病患者残疾、致死的主要原因。研究证实,糖尿病大血管病变占所有糖尿病患
目的:查证老年患者发生跌倒的原因,针对性制定有效的防护措施,防止意外跌倒的发生。方法:应用《住院患者跌倒危险因素评估表》对每位入院者进行跌倒危险性评估,筛选出跌倒高危
青年志愿工作是国家青年政策的一个要素。志愿服务意义重大,它是构建公民社会、国家发展、世界达到千年发展目标的基础。本文对中俄两国青年志愿者语言服务的相关内容进行对
据十年来全国各大药市及产区行情调查统计分析,旱半夏供求缺口较大,走势强劲,已从原来的20-28元/千克上涨为40-50元/千克,在我国现实技术条件下,人工栽培每667平方米(1亩)产商品150千