论文部分内容阅读
数字识别作为文字识别的重要组成部分,在前人近百年的摸索中,已经拥有了成熟的技术和蓬勃的发展。虽然各行业广泛应用这门技术,并且在数字识别发展的近百年时间里,涌现了大量优秀的算法和研究成果。但是对于测绘行业,文字识别技术的应用还尚在起步阶段,因此针对测绘行业的一些特定工作文字识别技术仍然有巨大的研究价值与空间。数字识别主要指通过使用硬件设施结合计算机软件编程手段实现自动识别阿拉伯数字的过程。在针对不动产数据整合这个项目中,通过数字识别可以大幅度减轻工作量与工作强度,具有非常重要的推广应用价值。本文主要研究如何解决在测区中纸质档案中含有界址点的扫描件如何直接生成数字化图的问题。本文的目的就是要解决识别纸质档案中的界址点,以及利用Arc Engine进行二次开发批量生成宗地图这两个技术难点。并最终形成一个能够自动识别界址点信息并且能自动生成数字化图的系统。全文主要工作包括如下:(1)数字识别图像预处理算法研究,包含图像的灰度化、图像的二值化、图像的降噪三个部分,研究三个部分的算法并将其实现应用在设计的系统中。(2)文字识别的算法选取,选择成熟的第三方库Tesseract文字识别引擎和百度OCR文字识别服务,对其进行对比分析,分析标准为识别后的正确率、错误率、拒识率以及识别所花费的时间,综上标准进行综合分析。最终做出最适合实验设计的选择。在应用选择好的识别方法时利用第一步掌握的图像预处理方法,尽可能的提高图像质量,提升识别正确率。(3)利用Arc Engine开发能够直接批量生成宗地图的软件。(4)结合前三步的工作,设计出一款能够通过计算机识别扫描件中界址点信息并最终能生成数字化宗地图的系统。(5)将该系统实际应用于清新区不动产数据整合项目中,验证是否满足实验精度需求。通过最终选定的文字识别方法,结合对扫描件图像的预处理工作,并将识别结果输出后提供给批量转换软件这一整套系统流程,最终满足实验设想,实现了高识别率的系统建设。