基于OCR技术的名片识别方法的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:xiaowei_0315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名片在日常生活和工作中起着非常重要的作用,已经成为人类重要的身份信息载体。由于名片中包含姓名、地址、电话号以及网址等信息,使得大部分名片为双语混排名片。当前亟需解决名片识别中英文混排情况下,名片识别的速度较慢,准确率较低的问题。本论文研究OCR名片识别方法的新技术进而弥补上述名片识别技术中存在的不足。  本文针对现有的二值化方法在名片识别中存在的问题,如全局阈值分割的方法准确度较低,局部阈值二值化方法产生伪影且运行速度较慢,以及全局阈值与局部阈值相结合的二值化算法在处理复杂版式名片时效果较差等缺点,研究了一种全局阈值与局部阈值相结合的优化算法,该方法采用类间方差法对最佳全局阈值进行计算,距阈值较远的像素点,选用全局阈值法对其进行二值化;距阈值较近的像素点,选用局部阈值法对其进行二值化,使得图像的二值化效果更加清晰。采用数学形态学上的膨胀算法对名片图像进行版面分析处理,完成图像版面块的划分。然后利用投影法版面块属性判定,提出文字块。该算法能够快速准确的对复杂名片的版面进行分析。本文针对传统中英文混排的字符识别技术存在的切分不完善、识别率低等问题进行研究,提出了反馈识别的单元合并算法,将左右结构汉字在字符切分时误切分的汉字部件进行合并。实验表明,该方法优于常规的部件合并方法。部件合并后,对粘连的中英文字符进行检测和重切分,提高字符识别准确率。最后,对名片文本信息进行分类,在启发式规则分类的基础上,加入了版面信息对其进行辅助分类,大幅度地提高了文本信息分类的准确性。  本论文利用提出的方法对名片进行测试,并与原有方法测试的结果对比分析,得出基于OCR技术的名片识别方法识别准确率高、复杂低和速度快,适用于各种版式的名片。
其他文献
数字图像修复是指针对图像中遗失或者损坏的部分,搜索合适的纹理或色彩信息,按照一定的规则填充修补,使得修复后的图像和谐、自然。其广泛应用于图像编辑、虚拟现实、视频特
随着无线通信的飞速发展,人们对高速数据业务的需求也更加迫切,无线资源的紧张迫使人们想方设法来提高频谱利用率,以在有限的频带上传输更高的速率。针对该问题,各种技术相应
随着无线通信技术的迅速发展,人们对高速率和高质量的数据业务需求日益增加。为了应对这一挑战,实现系统平滑演进到时分双工长期演进(TDD-LTE)系统,3GPP在版本7(Release7)协
随着电信技术的迅速发展,网络的规模越来越庞大,而且网络的种类和需求也越来越多,并且网络都伴随着大量的数据,需要通过网络共享各种资源。传统EJB(Enterprise Java Beans,Ja
随着个人通信技术和市场的发展,在不久的未来,多媒体消息、在线游戏、视频点播、音乐下载和移动电视等数据业务的需求将远远超出了现有网络的能力。与WiFi和WiMAX等无线接入方
本文研究了将SOPC技术融入嵌入式系统的设计方法,并搭建了一个微波干涉测速系统。随着近年来半导体和微电子技术的快速发展,各种高性能的片上系统和实时操作系统不断推陈出新,嵌入式系统的设计正在进行一场革命。如今,FPGA(现场可编程逻辑阵列)已经深入复杂逻辑电路和数字信号处理等领域,将之应用于嵌入式系统已经成为未来的发展趋势。本课题采用Altera公司的FPGA和SOPC技术,设计了微波干涉系统的电路