文本数字化图像OCR识别的准确度测度实验与提高

来源 :图书情报知识 | 被引量 : 0次 | 上传用户:mixiaoya2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于英国国家图书馆的Reshelp和Burney两个古旧英文报纸数字化项目,作者对文本型数字图像的OCR识别的准确度进行测试实验,结果显示整体准确度不高,且从高到低依次为字符、单词、重要单词、大写字母开头的重要单词。然后,将OCR识别周期划分为数字扫描对象的获取、数字图像的生产、数字图像的处理和文本识别等四个阶段,分析每个阶段影响准确度的因素,探讨提高准确度的具体措施。
其他文献
在江苏人民教育家培养工程活动中,我认识了庄惠芬老师,和她多次进行交流、讨论,一路看到她数学教育思想的提炼和发展,不断分享她对数学课程的理解和领悟。在我看来,庄惠芬老师倡导
期刊
根据近几年交通事故统计,超速行为已经成为诱发交通事故的主要原因之一,它给道路交通安全带来极大的威胁,由此造成的社会经济损失和人员伤亡不可估量。为了实现高效、安全、
本文通过模拟实验,研究了地面坡度对地表径流的影响。重点分析了坡度对径流量的影响;坡度对峰值流量的影响;坡度对汇流的影响。最后作者综合实验研究成果,提出了搞好流域综合
将生产型消费税改型为消费型增值税、将增值税的征收范围扩大到与工商业具有密切联系的交通运输业、建筑业已经成为我国流转税税制改革的一种必然趋势。本文通过对国外实行增
电渣重熔中,渣起着极其重要的作用,常见的电渣其组成主要以CaF2为基,特别是70%CaF2+30%Al2O3渣系。关于CaF2基渣系的性质,包括相图、活度、电导率、粘度、密度和表面张力等物
美国《幼儿学习环境评价量表(修订版)》(ECERS-R)是国际上运用较为广泛的托幼机构教育质量评价工具之一。为探索其在中国文化情境中的适宜性,研究者运用该量表对浙江省杭州市
基于三个维度对2012年全国高考福建生物学卷第26题进行评析:一是从试题的能力要求评价试题的考查特点;二是从分值分布的统计结果了解考生的得分情况;三是从答题情况列举考生
研究者采用事件取样观察法和访谈法,对6名幼儿园教师的观察能力进行研究。结果发现,教师常常不能观察到幼儿的典型行为事件,记录和分析观察事件的能力较薄弱。可能的原因是,
公开政府数据已经成为政府信息公开的新趋势,而随着各国政府数据公开计划的推进与实施,相关信息资源的深度利用越发受到关注,由此所催生的相关产业的发展前景也被普遍看好。
在课堂教学中让学生进行“说题”的尝试,亲身体验发现、探究、解决问题的过程,然后通过规范的语言表达出来。这种非常规的教学方式在提高学生学习积极性、主动性的同时,能提