基于连体段的印刷体维吾尔文识别技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zeone
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,对维吾尔文的研究可以分为手写体和印刷体两个方向。印刷体维吾尔文识别旨在将纸质文档电子化,有利于维吾尔族文化的继承与发扬,有助于新疆地区的信息化发展,有助于民族团结。其中,印刷体维吾尔文的研究又可以分为基于字符、基于单词和基于连体段三个方向。本文以连体段为识别对象,分别利用经典的OCR技术和深度学习网络模型对印刷体维吾尔文连体段进行研究,并且研发了一套完整的印刷体维吾尔文识别翻译系统。具体的研究内容如下:1.建立印刷体维吾尔文连体段数据库。通过统计整理实验室已有的单词数据库,对4261类常用维吾尔文单词所包含的连体段进行统计并剔除重复的连体段,本文整理出1792类常用的连体段,并建立50套不同字体不同字号的连体段数据库样本;2.鉴于连体段之间间隙较小、可能存在轻微的粘连现象,若采用简单的积分投影法会出现漏切分、过切分等现象,导致连体段切分不准确。为了准确切分连体段,本文采用一种基于位置关系合并连通域的连体段切分方法,该方法通过遍历连通域,并根据连体段主体和附加体的常见位置关系进行合并,最后得到独立的连体段单位。实验表明,采用连通域合并法可以对不同大小不同字号的印刷体维吾尔文文档进行准确切分连体段,切分准确率可接近于100%;3.本文研究了基于经典OCR的印刷体维吾尔文连体段识别技术。基于经典OCR的印刷体维吾尔文连体段识别技术包括文档图像预处理、文档图像切分、连体段图像预处理、特征提取和分类识别5大模块。实验表明,基于经典OCR的印刷体维吾尔文连体段识别技术的前1识别准确率不低于92.97%,识别速率不低于95.36ms/连体段;4.本文研究了基于深度学习的印刷体维吾尔文连体段识别技术。本文基于Le Net-5模型和Alex Net模型设计了一个7层的卷积神经网络模型,并通过数据增强的方式提高了模型网络的泛化能力。经过实验表明,基于卷积神经网络的印刷体维吾尔文连体段识别取得了较满意的识别准确率,前1识别率稳定于99%;5.本文在上述研究基础上设计开发了一套印刷体维吾尔文识别翻译系统。该系统可以通过连接扫描仪或者打开图片的方式对印刷体维吾尔文文档进行识别或翻译操作,识别操作输出为可编辑格式的维吾尔连体段,翻译操作输出为维吾尔文单词对应的中文翻译。
其他文献
目前我国经济高速发展,消费在经济发展中的比重不断增加,与投资出现疲软、出口逐渐低迷相比,我国消费的持续增长表明消费对经济的拉动作用进一步增强,作为中国经济新常态下的中坚力量,扩大内需、充分挖掘居民消费潜力是我国目前重要的着力点之一。目前中国居民收入水平逐步提高,居民的生活方式及消费观念也产生了重大的变化,从原来的生存需求型消费到讲究生活品质、注重娱乐与身心健康上的享受型消费转变。作为消费市场的主流
稻纵卷叶螟是威胁我国水稻生产的一种重要农业害虫,其迁飞活动与大气背景有着密切关系。一方面受东亚季风影响每年在我国东部地区季节性往返迁飞为害;另一方面稻纵卷叶螟的爆发具有间歇性,突发性和很强的地区差异,南方稻区不同地形形成了复杂多样的局地小气候,也往往导致稻纵卷叶螟在同一地区连年大爆发。本研究从大尺度的季风环流和中小尺度的局地环流出发,分别探讨稻纵卷叶螟的中短期迁飞规律和短期迁飞与降落机制,为稻纵卷
关节炎在中医上被称为“痹症”,是威胁老龄人群的主要疾病之一。其发病率高、病程长,迁延难愈,临床用药依赖性大。芍药苷在治疗风湿性关节炎、类风湿性关节炎等关节炎症方面
随着我国人均汽车保有量的提升,对车辆的管理越来越重要,车量管理最重要的步骤之一就是车牌检测。当前,国内外虽然存在多种基于深度学习的车牌检测方法,但其研究是针对国外数据集或者针对中国的特定场景。自然场景下的中国车牌,具有种类多、拍摄距离远、光线变化大的特点,而且对自然场景下中国车牌检测方法的研究较少。本文主要研究现有基于深度学习的车牌检测方法对自然场景下中国车牌的检测效果,并应用在实际的场景中。本文
过渡金属催化C-H键活化因其原子和步骤经济性一直以来是有机合成领域的研究热点之一。与五甲基环戊二烯基(Cp*)结合的铑催化剂是一种具有代表性的过渡金属催化剂,且其相关催化反应得到大量科研工作的报道。因此,利用该催化剂,寻找新的导向基团,与广泛的偶联底物进行反应是本文的研究重点。我们以[RhCp*Cl2]2催化剂催化,分别以N-氯亚胺和烯胺酮为导向基,合成了异吲哚类和水杨醛类产物。主要内容包括:第一
2017年8月21日,原国土资源部(现自然资源部)会同住房城乡建设部联合发文提出,确定在北京、上海、沈阳、南京、杭州、合肥、厦门、郑州、武汉、广州、佛山、肇庆、成都等13个城市开展利用集体建设用地建设租赁住房试点工作。该项政策是对以往土地、住房管理制度的一次突破性尝试,对促进土地供给侧改革、构建建设用地城乡一体市场与购租并举的住房体系有着重要作用,试点城市的实施效果直接影响到改革政策的方向,甚至成
本文对33份薄壳山核桃种质资源进行ISSR-PCR分子标记,建立不同品种之间的亲缘关系树状图,并对薄壳山核桃干腐病和叶斑病进行研究,明确其致病菌,为薄壳山核桃种质资源遗传多样性分析以及病害防治提供理论依据。试验结果如下:1、分别建立了薄壳山核桃分子标记的最佳PCR反应体系:94℃预变性4 min,94℃变性30秒;退火温度50℃-53℃之间45秒;72℃延伸35秒,循环35次,72℃再次修复延伸1
分布式光纤传感技术与普通点式光纤传感技术相比,具有长距离、连续探测等多项优势,是当前光纤传感领域的研究热点。其中,相位敏感光时域反射仪(Φ-OTDR)作为分布式光纤传感技术的典型代表,广泛应用于周界安防、桥梁铁路安全监测、输电线路舞动预警等多个领域,具有广阔的发展前景。衡量Φ-OTDR传感系统优劣的性能指标主要有传感距离、空间分辨率和频率响应范围等。本文从延长Φ-OTDR传感系统的传感距离这一角度
糖尿病周围神经病变(diabetic peripheral neuropathy,DPN)是糖尿病最常见的慢性并发症。中药附子作为一味广为人知的传统中药材,目前其治疗DPN均以复方形式。为了更好的研究
随着飞艇、无人机、船舶、车辆等天空海地高速移动设备的联网需求增加,终端节点的分布已由平面向三维立体空间扩展。多无人机组成的无线自组织网络,是一种以能够在任何地方进行测量以及在高度受控的空域飞行的无人机为中心的自配置网络,可作为空天一体化网络中的关键中间架构。特别地,本文研究面向那些以运行在三维环境中的无人机为主要通信载体,以自组织方式实现设备间组网,且满足高动态特征的无人机网络,它们可以看作是三维