低质量文档图像的二值化研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:neverer123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二值化是文档自动处理系统的一个关键预处理过程,直接影响系统的整体性能。低质量文档是由复杂背景和弱笔画等诸多因素引起的,其二值化是当前文档处理研究的热点和难点。本论文分析了文档质量下降的主要原因,重点对具有弱笔画、墨迹浸润现象以及背景亮度深浅不一的低质量文档图像二值化方法进行研究。本文研究了Su提出的基于局部最大值和最小值的文档图像二值化方法,针对其处理弱笔画的不足提出了一种新的基于梯度归一化的文档图像二值化方法。首先根据归一化梯度检测字符笔画的边缘点;然后通过极值滤波获得笔画的边缘区域;最后计算笔画边缘区域的局部阈值并进行二值化。与Otsu方法、Niblack方法以及Su方法进行了对比实验,结果表明,本文提出的基于梯度归一化的二值化方法不仅能够有效的检测出字符信息,而且产生的噪声较少。视觉注意机制在目标检测、图像压缩和图像检索等领域中得到了广泛的应用,但是在文档处理领域中的应用却鲜有报道。本文从视觉注意机制的角度出发,分析了文档图像的特征,并对视觉注意机制在文档图像二值化上的应用进行了探索,提出了基于显著图的区域全局阈值和局部阈值两种二值化方法。其中,区域全局阈值方法是对字符区域采用统一的阈值进行二值化,由于字符区域大小与字符的分布有关,所以该方法的效果不太理想,实验结果表明该方法优于常用的Otsu方法和Niblack方法,但是劣于Su方法;局部阈值方法是对字符区域采用局部阈值进行二值化,实验结果表明,该方法的处理效果要优于Otsu方法、Niblack方法以及Su方法。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
会议
嵩山煤矿矸石山排矸系统由提升机牵引翻矸车至矸石山架头完成翻矸任务,矸石运输环节较多,提升效率低。随着矿井技改,产能扩大,矿井开拓进尺不断延伸,日平均出矸量显著增加。
我校实施全动力教学模式教学,第一步预习质疑,第二步探究疑释,第三步精熟巩固,第四步拓展提高的教学模式。教学的第一步尤为重要,它是全动力教学模式的开始,是成功的起点。因为学生
随着我国城乡中压电网的迅速建设和改造,配电网中性点接地方式的选择和研究日趋重要。对小电流接地、低电阻接地和自动跟踪消弧线圈接地这三种现今最主要的接地方式进行概述,在
复合地基承载力特征值最直接、最准确的确定方法就是复合地基静载荷试验,静载试验的测试结果对复合地基施工质量复核、拟建建筑层数、基础类型、结构类型、使用安全、工程投资
2017年5月,成都市新都区某中药材仓库发生一起急性磷化氢中毒事故,造成2名仓库守夜人员急性中毒,其中1人抢救无效死亡,现报告如下。1事故经过死者邢某(男,58岁)和患者郑某(女
本文在分析中等职业学校综合实训课程现存问题的基础上,从综合实训场地、设备情况、思维模式、上课班次等方面阐述了综合实训课的优化方案,方案可行性高,能加强综合实训课程的校
<正><正>细菌性感染是最常见的感染性疾病,若未及时进行有效的治疗,很有可能造成机体死亡。目前,抗生素是人医与兽医临床上最重要和使用最为广泛的抗感染药物,解决了很多人类