Accurate document digitalization based on text recognition confidence estimation

来源 :第十二届全国信息隐藏暨多媒体信息安全学术大会 | 被引量 : 0次 | 上传用户:e5134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Document digitalization is one of the basic technologies in multimedia information search and retrieval research area.It has offered a powerful way to bridge the gap between massive redundant image information and retrievable text.Although optical character recognition (OCR) technology has been widely applied to document digitalization projects, character misrecognition is inevitable due to picture downgrading caused by printed error, illumination or blurring variation.In some circumstances, a compromising scheme is to detect misrecognized characters accurately and leave them as embedded character images in the final electronic document.Thus, it is crucial to evaluate the recognition confidence for recognition error detection.In this paper, we propose a novel document digitalization method by combining traditional OCR technology with Convolutional Neural Networks(CNN) based text recognition confidence analysis.Briefly, samples are first processed by traditional OCR system to generate first stage recognition result.Usually, the error rate is below 2%, and then each recognized character is given a confidence value by an independent confidence estimator based on CNN, the recognized character with low confidence value is marked as misrecognized character.Experimental results show that our method has achieved an explicit improvement compared to baseline system.
其他文献
非活跃帧信息隐藏选择非活跃帧中的特定码元作为载体,可实现高嵌入率的信息隐藏.本文针对该隐写进行检测.发现,该隐写会改变相邻语音帧中特定码元之间的关联性.据此,本文提出了一种码元关联网络模型来定量描述这种改变.利用关联网络参数构建对隐写敏感的特征向量,结合支持向量机(Support Vector Machine,SVM)分类器构建了隐写检测器.基于G.723.1编码标准,本文在不同语音样本集和不同语
This article introduces a novel ensemble classifier for steganalysis of JPEG images.We put forward four different sampling strategies, and built selective ensemble classifier based on paired sampling
The influence of the diversity of image content is often ignored in current steganalysis systems, and there is very tittle research focusing on the quantitative measurement of image content for stegan
自适应隐写优先将信息嵌入到图像纹理复杂的区域,利用这一特点提出了一种基于像素分类的分析算法.通过研究隐写算法安全性,定义了像素修改代价、图像失真;利用二者之间的关系,通过SPAM特征定量描述图像失真,求得像素修改代价.利用图像失真的可加性,给出了最小失真预期,进而得到像素修改概率.研究像素之间相关性,利用中心像素修改概率和周围4像素平均修改概率,对像素分类.最后,定义像素分类残差,提取各类像素组的
基于机器翻译的信息隐藏Translation Based Steganography,TBS),是一类新的基于自然语言的文本信息隐藏算法.由于不同的翻译机对同一个句子翻译产生的结果在大多情况下是有区别的,因此使用多台翻译机翻译同一段文本,会得到不同的意义相近的译文.TBS算法根据隐藏信息的不同来选择不同翻译机的翻译结果,形成的隐藏文本语法正确,语义连贯.由于TBS完全不同于传统的基于格式或基于语法
隐写分析依赖于特征和分类器技术,在面向隐写媒体识别应用中,由于载体图像本身较为复杂,有不同的特性,一般需要训练不同的分类器,并在分析前根据媒体特性动态选择实施分析的分类器,以尽可能的增加隐写媒体的准确性.但目前这类工作还比较少,考虑的因素也比较有限.本文主要研究根据图像特性选择分类器的方法,考虑的图像特性包括图像尺寸和质量因子或者量化矩阵.此外,本文还讨论了图像纹理、相机来源等其他图像特性对隐写分
ON-OFF时间式网络隐信道是一种利用同步窗口内数据包收发事件进行编码的网络隐蔽通信方式,传统针对ON-OFF时间式网络隐信道的检测方法需要较大的数据包窗口,且无法获得相应的编码参数.本文提出了一种基于包间时间序列分析的隐信道检测方法,该方法利用排序包间时间存在的台阶效应设计具有较小数据包窗口的检测算法,并可根据ON-OFF时间隐信道的包间时间均值估计编码的时间窗口值,仿真试验结果表明了所提算法的
熵检测方法作为一种基于正常通信时间间隔模型的检测方法,对大多数已有时间式隐蔽信道均具有良好的检测效果.Mimic时间式网络隐蔽信道针对熵检测算法在规律性和分布性两个部分的检测原理进行针对性地设计,能有效地抵抗熵检测方法.本文在对Mimic网络隐蔽信道的特点进行深入分析的基础上,针对其仅实现了原始分区的规律性保持的缺点,提出了一种基于细化分区的的CCE检测方法.实验结果表明:本文所述的改进方法能够对
提出一种基于图像矢量量化压缩和自嵌入机制的脆弱水印算法.通过建立码本并利用矢量量化方法对原始图像每个不重叠的分块进行压缩,获得可表示图像主要内容的压缩码.将置乱后的压缩码通过随机矩阵进行扩展,增加了待嵌入的内容恢复比特中的冗余,并使得原始图像中各个分块与每个内容恢复比特间建立相关性,可提高篡改后图像可恢复面积.实验结果表明,与已有算法相比,本文算法可以较小的水印嵌入容量实现针对大面积篡改情况下更好
In this paper, a memorability feature based-video hashing is proposed as an alternative to appearance feature based-and visual attention based-algorithms.Inspired by our previous study which shows spa