面向新闻字幕识别的视频文本定位与切分方法研究

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:XULIANSHUAI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新闻视频的爆发式增长,对海量新闻视频进行分类、检索和管理的工作变得越来越重要。新闻视频中的文本字幕提供了极其丰富的高层语义信息,能够帮助用户更容易地理解视频内容,所以对视频中的字幕进行准确识别是对视频内容分析和理解的一种有效的方法。考虑新闻视频中的文本字幕背景复杂多变,全局干扰噪音强等特性,为了准确定位新闻视频文本字幕区域,本文采用了一种基于边缘检测和投影的字幕定位方法。针对整幅字幕图片二值化效果差、识别率低的问题,本文采用了一种基于梯度投影的字符切分方法。针对目前还没有新闻视频字幕领域专用的OCR语言库,导致不理想的字幕识别效果的问题,本文利用开源OCR引擎Tesseract训练字符图片样本集,得到用于新闻视频字幕识别的OCR语言库。实验结果表明,本文采用的方法可有效地定位新闻视频中的字幕区域,可以准确地将字幕区域内的字符进行切分,在训练出的语言库上对新闻视频字幕进行识别能有效地提高字幕的识别率,具有良好的实用价值。
其他文献
随着移动智能设备的普及,Android系统发展十分迅速,同时也使Android恶意应用快速发展和广泛传播,给Android用户带来严峻的安全隐患。本文通过对Android系统及其安全机制的研
基于图象序列的三维重建技术是近年来计算机视觉技术与计算机图形学技术相结合而产生的一门新的技术。它利用摄像机拍摄场景或物体不同角度的图象,根据不同图象之间的几何关系