一种基于Delaunay三角化的视频文本检测算法

来源 :南京大学 | 被引量 : 0次 | 上传用户:yc253
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
阅读文本是人类最为普遍的获取信息的方式之一。视频中蕴藏着大量的文本信息可以为视频的分类、索引和检索等提供可靠的线索,因此视频中的文字检测和提取已成为理解视频内容的重要环节,视频中的文本提取相应也逐渐成为视觉内容理解的研究热点之一。  本文首先对图像和视频中的文字检测方法进行了综述,将这些方法分成了三类,即:基于滑动窗口的方法、基于连通区域的方法和混合方法,并对其分别作了介绍。此外,本文还针对视频特点,介绍了利用视频中时间域信息作文字检测的研究现状。  本文进而提出了一种利用Delaunay三角化来检测视频中场景文字的新方法。在该方法中,我们首先利用角点跟踪技术获取当前帧上的角点在视频窗口中的轨迹,然后将每条轨迹作为结点,利用Delaunay三角化算法构建连通图。接下来通过分析相邻轨迹间的空间临近性、运动模式一致性、局部区域不变性和Canny边缘重合性,本文对所构建的图表示作进一步裁剪和筛选,所得的子图被视作候选字符区域。我们进而通过启发式规则,去除掉其中的假阳性候选字符,并最终合并成单帧图像中的文本行。  视频中往往还会出现文本大小和位置可变的情况。针对这一问题,我们进一步提出了一种新的基于Delaunay三角化表示的多尺度视频文本跟踪算法。在该方法中,我们首先利用文字笔划两侧的梯度对称特性对Canny边缘进行过滤,并根据角点的空间位置来筛选文字相关的角点,使单帧图像上的文字检测准确率得以进一步提高。接下来,我们利用图像金子塔算法,在多尺度下进行了大小可变的文字检测。最后,我们提出了视频中的场景文本跟踪算法,可将单帧中检测到的场景文本在随后的帧中快速定位。在文本跟踪过程中,我们还分析了文字的运动模式,以对跟踪算法作进一步针对性优化。  在多个基准库上的实验结果表明,本文提出的方法可检测与跟踪视频中的场景文字,并在准确率、召回率、F-量值等指标上相较现有方法取得了更好的性能。
其他文献
本文对Linux内核动态侧面支持框架的设计与实现进行了探讨。本研究在总结已有研究成果的基础上,提出的一种新的动态侧面编排技术。新的编排技术将动态编排过程分为两个阶段:第
热部署是现今主流应用服务器的典型特性之一。然而,这些主流应用服务器在部署过程中将每个模块看作一个独立的应用。因此,当模块化应用仅仅对被依赖模块进行热部署更新时,原
软件质量作为软件工程中的一个重要课题,受到大量的关注和广泛的研究。目前保障软件质量的方法可分为测试和验证两大类。软件测试通过定义各种测试充分性,可以提高我们对被测软
互联网的异构性(Heterogeneity)和运行的不确定性使得基于互联网的分布式系统的设计和构建非常困难。近年来,我们见证的大规模的、成功的资源共享系统大都放弃了对“单一资源
天网 Ftp 资源搜索引擎的前身是天网千帆,它是一个基于Web的海量Ftp搜索引擎,以用户关键词和Ftp文件名匹配的方式来实现对Ftp文件的搜索,方便用户查找和下载互联网上的Ftp文件资
传感器节点的能量和功能有限,使用不同的路由协议将会对网络的能量消耗大小产生不同的影响,而设计一个能量高效、传输延迟低、容错性高、安全性好的路由协议又是非常有难度的事
随着电气、电子、计算机和信息技术的飞速发展,嵌入式技术越来越受到人们的关注,应用领域几乎遍及所有的电子产品:智能机器人,网络通信设备,军用设备,汽车导航,环境保护,智能仪器,安全
长期以来,人脸表情动画生成技术一直是计算机图形学的研究热点之一。由于脸部模型的复杂性、表情的多样性,生成具有实时性和真实感的动画是人们面临的严峻挑战,而如何创建一个既
学位
侧面分离系统功能性关注点与核心关注点,简化了软件维护,提高了软件复用。动态侧面能动态的将侧面代码编织到应用程序,使得应用程序无需重启即可改变行为,提高了应用程序的灵活性
随着国际互联网络的发展,越来越多的公司企业或者政府部门开始利用网络完成更多的事情。但随之而来,网络安全问题也日益突出,从而他们对网络安全设备提出了更多的要求。因此,防火