面向新闻字幕识别的视频文本定位与切分方法研究

论文部分内容阅读

随着新闻视频的爆发式增长,对海量新闻视频进行分类、检索和管理的工作变得越来越重要。新闻视频中的文本字幕提供了极其丰富的高层语义信息,能够帮助用户更容易地理解视频内容,所以对视频中的字幕进行准确识别是对视频内容分析和理解的一种有效的方法。考虑新闻视频中的文本字幕背景复杂多变,全局干扰噪音强等特性,为了准确定位新闻视频文本字幕区域,本文采用了一种基于边缘检测和投影的字幕定位方法。针对整幅字幕图片二值化效果差、识别率低的问题,本文采用了一种基于梯度投影的字符切分方法。针对目前还没有新闻视频字幕领域专用的OCR语言库,导致不理想的字幕识别效果的问题,本文利用开源OCR引擎Tesseract训练字符图片样本集,得到用于新闻视频字幕识别的OCR语言库。实验结果表明,本文采用的方法可有效地定位新闻视频中的字幕区域,可以准确地将字幕区域内的字符进行切分,在训练出的语言库上对新闻视频字幕进行识别能有效地提高字幕的识别率,具有良好的实用价值。

其他学术论文